Resultados da pesquisa a pedido "apache-spark"

3 a resposta

Trabalhando com o jdbc jar no pyspark

Eu preciso ler de um banco de dados sql postgres no pyspark. Eu sei que isso já foi perguntado antes, comoaqui [https://stackoverflow.com/questions/29669420/not-able-to-connect-to-postgres-using-jdbc-in-pyspark-shell] , ...

2 a resposta

INFO continuamente JobScheduler: 59 - Trabalhos adicionados por tempo *** ms no meu cluster independente Spark

Estamos trabalhando com o Spark Standalone Cluster com 8 núcleos e 32 GB de RAM, com cluster de 3 nós com a mesma configuração. Algumas vezes, o lote de streaming é concluído em menos de 1 segundo. algumas vezes, leva mais de 10 segundos e o log ...

1 a resposta

Como acessar árvores individuais em um modelo criado por RandomForestClassifier (spark.ml-version)?

Como acessar árvores individuais em um modelo gerado pelos Spark ML's RandomForestClassifier [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.classification.RandomForestClassifier] ? Estou usando a versão Scala do ...

1 a resposta

Scala-Spark Chama dinamicamente groupby e agg com valores de parâmetro

Quero escrever um agrupamento personalizado e uma função agregada para obter nomes de colunas especificados pelo usuário e mapa de agregação especificado pelo usuário.Não sei os nomes das colunas e o mapa de agregação na frente. Eu quero escrever ...

1 a resposta

Armazenamento em cache no Spark

Uma função é definida para transformar um RDD. Portanto, a função é chamada uma vez para cada elemento no RDD. A função precisa chamar um serviço da web externo para procurar dados de referência, passando como dados de parâmetro do elemento ...

1 a resposta

Qual é a maneira mais eficiente de fazer uma redução classificada no PySpark?

Estou analisando os registros de desempenho pontual dos voos domésticos nos EUA a partir de 2015. Preciso agrupar por número da cauda e armazenar uma lista ordenada por data de todos os voos para cada número da cauda em um banco de dados, a serem ...

1 a resposta

É possível dimensionar dados por grupo no Spark?

Eu quero dimensionar dados comStandardScaler (from pyspark.mllib.feature import StandardScaler), agora posso fazê-lo passando os valores de RDD para transformar a função, mas o problema é que quero preservar a chave. existe alguma maneira ...

1 a resposta

O streaming de faíscas funciona com "cp" e "mv"

Estou usando o spark streaming Meu programa lê continuamente fluxos de uma pasta hadoop. O problema é que, se eu copiar para minha pasta hadoop (hadoop fs -copyFromLocal), o trabalho do spark será iniciado, mas se eu mover (hadoop fs -mv / ...

2 a resposta

como obter o melhor modelo treinado de um crossvalidator

Criei um pipeline incluindo um DecisionTreeClassifier (dt) como este val pipeline = new Pipeline().setStages(Array(labelIndexer, featureIndexer, dt, labelConverter))Então eu usei esse pipeline como estimador em um CrossValidator para obter um ...

4 a resposta

Filtrando linhas com base nos valores das colunas no spark dataframe scala

Eu tenho um quadro de dados (spark): id value 3 0 3 1 3 0 4 1 4 0 4 0Eu quero criar um novo quadro de dados: 3 0 3 1 4 1É necessário remover todas as linhas após 1 (valor) para cada id. Tentei com as funções de janela no spark dateframe ...