Resultados da pesquisa a pedido "apache-spark"
Trabalhando com o jdbc jar no pyspark
Eu preciso ler de um banco de dados sql postgres no pyspark. Eu sei que isso já foi perguntado antes, comoaqui [https://stackoverflow.com/questions/29669420/not-able-to-connect-to-postgres-using-jdbc-in-pyspark-shell] , ...
INFO continuamente JobScheduler: 59 - Trabalhos adicionados por tempo *** ms no meu cluster independente Spark
Estamos trabalhando com o Spark Standalone Cluster com 8 núcleos e 32 GB de RAM, com cluster de 3 nós com a mesma configuração. Algumas vezes, o lote de streaming é concluído em menos de 1 segundo. algumas vezes, leva mais de 10 segundos e o log ...
Como acessar árvores individuais em um modelo criado por RandomForestClassifier (spark.ml-version)?
Como acessar árvores individuais em um modelo gerado pelos Spark ML's RandomForestClassifier [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.classification.RandomForestClassifier] ? Estou usando a versão Scala do ...
Scala-Spark Chama dinamicamente groupby e agg com valores de parâmetro
Quero escrever um agrupamento personalizado e uma função agregada para obter nomes de colunas especificados pelo usuário e mapa de agregação especificado pelo usuário.Não sei os nomes das colunas e o mapa de agregação na frente. Eu quero escrever ...
Armazenamento em cache no Spark
Uma função é definida para transformar um RDD. Portanto, a função é chamada uma vez para cada elemento no RDD. A função precisa chamar um serviço da web externo para procurar dados de referência, passando como dados de parâmetro do elemento ...
Qual é a maneira mais eficiente de fazer uma redução classificada no PySpark?
Estou analisando os registros de desempenho pontual dos voos domésticos nos EUA a partir de 2015. Preciso agrupar por número da cauda e armazenar uma lista ordenada por data de todos os voos para cada número da cauda em um banco de dados, a serem ...
É possível dimensionar dados por grupo no Spark?
Eu quero dimensionar dados comStandardScaler (from pyspark.mllib.feature import StandardScaler), agora posso fazê-lo passando os valores de RDD para transformar a função, mas o problema é que quero preservar a chave. existe alguma maneira ...
O streaming de faíscas funciona com "cp" e "mv"
Estou usando o spark streaming Meu programa lê continuamente fluxos de uma pasta hadoop. O problema é que, se eu copiar para minha pasta hadoop (hadoop fs -copyFromLocal), o trabalho do spark será iniciado, mas se eu mover (hadoop fs -mv / ...
como obter o melhor modelo treinado de um crossvalidator
Criei um pipeline incluindo um DecisionTreeClassifier (dt) como este val pipeline = new Pipeline().setStages(Array(labelIndexer, featureIndexer, dt, labelConverter))Então eu usei esse pipeline como estimador em um CrossValidator para obter um ...
Filtrando linhas com base nos valores das colunas no spark dataframe scala
Eu tenho um quadro de dados (spark): id value 3 0 3 1 3 0 4 1 4 0 4 0Eu quero criar um novo quadro de dados: 3 0 3 1 4 1É necessário remover todas as linhas após 1 (valor) para cada id. Tentei com as funções de janela no spark dateframe ...