Resultados da pesquisa a pedido "apache-spark"

3 a resposta

Os quadros de dados Spark convertem JSON aninhado em colunas separadas

Eu tenho um fluxo de JSONs com a seguinte estrutura que é convertida em dataframe { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }O dataframe show functions resulta na seguinte ...

1 a resposta

Spark: operação aleatória levando a uma longa pausa no GC

Estou correndoSpark 2 e estou tentando embaralhar cerca de 5 terabytes de json. Estou tendo uma pausa muito longa na coleta de lixo durante o embaralhamento de umDataset: val operations = ...

1 a resposta

Por que os arquivos Spark Parquet para um agregado são maiores que o original?

Estou tentando criar um arquivo agregado para os usuários finais utilizarem para evitar que eles processem várias fontes com arquivos muito maiores. Para fazer isso, I: A) repete todas as pastas de origem, removendo os 12 campos mais solicitados, ...

1 a resposta

Para limitar o grande RDD

Estou lendo muitas imagens e gostaria de trabalhar em um pequeno subconjunto delas para desenvolvimento. Como resultado, estou tentando entender comofaísca [/questions/tagged/spark]ePitão [/questions/tagged/python]poderia fazer ...

3 a resposta

Como limitar o número de tentativas na falha do trabalho do Spark?

Estamos executando um trabalho do Spark viaspark-submit, e vejo que o trabalho será reenviado em caso de falha. Como posso impedi-lo de ter a tentativa nº 2 em caso de falha do contêiner de fios ou qualquer que seja a exceção? [/imgs/lqdyg.png]

1 a resposta

Produto cartesiano de faísca

Eu tenho que comparar coordenadas para obter a distância. Para isso, carrego os dados com sc.textFile () e faço um produto cartesiano. Existem cerca de 2.000.000 linhas no arquivo de texto, portanto, 2.000.000 x 2.000.000 para serem comparadas as ...

1 a resposta

O driver de streaming do Twitter Spark 2.0.0 não está mais disponível

Durante a migração do spark 1.6.2 para o spark 2.0.0, apareceu que o pacote org.apache.spark.streaming.twitter foi removido e o streaming do twitter não está mais disponível, assim como a dependência <dependency> ...

2 a resposta

Erro Spark: zero argumento esperado para a construção de ClassDict (para numpy.core.multiarray._reconstruct)

Eu tenho um dataframe no Spark no qual uma das colunas contém uma matriz. Agora, escrevi um UDF separado que converte a matriz em outra matriz com valores distintos apenas nela. Veja o exemplo abaixo: Ex:[24,23,27,23]deve ser convertido para[24, ...

2 a resposta

O que é uma maneira otimizada de juntar tabelas grandes no Spark SQL

Preciso ingressar em tabelas usando o Spark SQL ou a API Dataframe. Precisa saber qual seria a maneira otimizada de alcançá-lo. O cenário é: Todos os dados estão presentes no Hive no formato ORC (Base Dataframe e arquivos de referência).Preciso ...

3 a resposta

Como verificar a versão do Spark [fechado]

Quero verificar a versão do spark no cdh 5.7.0. Pesquisei na internet, mas não consigo entender. Por favor ajude. obrigado