Resultados da pesquisa a pedido "apache-spark"
Os quadros de dados Spark convertem JSON aninhado em colunas separadas
Eu tenho um fluxo de JSONs com a seguinte estrutura que é convertida em dataframe { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }O dataframe show functions resulta na seguinte ...
Spark: operação aleatória levando a uma longa pausa no GC
Estou correndoSpark 2 e estou tentando embaralhar cerca de 5 terabytes de json. Estou tendo uma pausa muito longa na coleta de lixo durante o embaralhamento de umDataset: val operations = ...
Por que os arquivos Spark Parquet para um agregado são maiores que o original?
Estou tentando criar um arquivo agregado para os usuários finais utilizarem para evitar que eles processem várias fontes com arquivos muito maiores. Para fazer isso, I: A) repete todas as pastas de origem, removendo os 12 campos mais solicitados, ...
Para limitar o grande RDD
Estou lendo muitas imagens e gostaria de trabalhar em um pequeno subconjunto delas para desenvolvimento. Como resultado, estou tentando entender comofaísca [/questions/tagged/spark]ePitão [/questions/tagged/python]poderia fazer ...
Como limitar o número de tentativas na falha do trabalho do Spark?
Estamos executando um trabalho do Spark viaspark-submit, e vejo que o trabalho será reenviado em caso de falha. Como posso impedi-lo de ter a tentativa nº 2 em caso de falha do contêiner de fios ou qualquer que seja a exceção? [/imgs/lqdyg.png]
Produto cartesiano de faísca
Eu tenho que comparar coordenadas para obter a distância. Para isso, carrego os dados com sc.textFile () e faço um produto cartesiano. Existem cerca de 2.000.000 linhas no arquivo de texto, portanto, 2.000.000 x 2.000.000 para serem comparadas as ...
O driver de streaming do Twitter Spark 2.0.0 não está mais disponível
Durante a migração do spark 1.6.2 para o spark 2.0.0, apareceu que o pacote org.apache.spark.streaming.twitter foi removido e o streaming do twitter não está mais disponível, assim como a dependência <dependency> ...
Erro Spark: zero argumento esperado para a construção de ClassDict (para numpy.core.multiarray._reconstruct)
Eu tenho um dataframe no Spark no qual uma das colunas contém uma matriz. Agora, escrevi um UDF separado que converte a matriz em outra matriz com valores distintos apenas nela. Veja o exemplo abaixo: Ex:[24,23,27,23]deve ser convertido para[24, ...
O que é uma maneira otimizada de juntar tabelas grandes no Spark SQL
Preciso ingressar em tabelas usando o Spark SQL ou a API Dataframe. Precisa saber qual seria a maneira otimizada de alcançá-lo. O cenário é: Todos os dados estão presentes no Hive no formato ORC (Base Dataframe e arquivos de referência).Preciso ...
Como verificar a versão do Spark [fechado]
Quero verificar a versão do spark no cdh 5.7.0. Pesquisei na internet, mas não consigo entender. Por favor ajude. obrigado