Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Diferenças de chave SPARK-HIVE entre Hive e Parquet da perspectiva do processamento do esquema da tabela

Eu sou novo em faísca e colméia. Eu não entendo a afirmação "O Hive considera todas as colunas anuláveis, enquanto a anulabilidade no Parquet é significativa" Se alguém explicar a afirmação com exemplo, será melhor para mim. Agradeça ao seu.

1 a resposta

Por que o Apache Spark lê colunas Parquet desnecessárias em estruturas aninhadas?

Minha equipe está criando um processo ETL para carregar arquivos de texto delimitados em bruto em um "data lake" baseado em Parquet usando o Spark. Uma das promessas do armazenamento de colunas do Parquet é que uma consulta leia apenas as "faixas ...

2 a resposta

Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 segundos]"?

Estou usando o Spark 1.5. Eu tenho dois quadros de dados do formulário: scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> linkPersonItemLessThan500DF ...

1 a resposta

Lendo arquivos dinamicamente a partir do HDFS a partir das funções de transformação do spark

Como um arquivo do HDFS pode ser lido em uma função spark que não usa sparkContext dentro da função. Exemplo: val filedata_rdd = rdd.map { x => ReadFromHDFS(x.getFilePath) }Pergunta é como ReadFromHDFS pode ser implementado? Geralmente, para ...

2 a resposta

Spark 2.0 ausente implícito no spark

Usando o Spark 2.0, estou vendo que é possível transformar um quadro de dados de linha em um quadro de dados de classes de caso. Quando tento fazer isso, sou recebido com uma mensagem informando para importarspark.implicits._. O problema que ...

1 a resposta

suporte a gzip no Spark

1 a resposta

Lendo um gráfico grande de Titan (no HBase) no Spark

Estou pesquisando o Titan (no HBase) como candidato a um grande banco de dados de gráficos distribuídos. Exigimos o acesso OLTP (consultas rápidas e de vários saltos no gráfico) e o acesso OLAP (carregando todo - ou pelo menos uma grande parte - ...

3 a resposta

Como anexar a um arquivo csv usando df.write.csv no pyspark?

Estou tentando acrescentar dados ao meu arquivo csv usandodf.write.csv. Foi o que fiz depois de seguir o documento do ...

1 a resposta

Geração de código de estágio completo no Spark 2.0

Eu ouvi sobreWhole-Stage Code Generation para sql para otimizar consultas. atravésp539-neumann.pdf [http://www.vldb.org/pvldb/vol4/p539-neumann.pdf] & ...

2 a resposta

Como usar SQLContext e SparkContext dentro de foreachPartition

Eu quero usar SparkContext e SQLContext dentroforeachPartition, mas não foi possível devido a erro de serialização. Eu sei que os dois objetos não são serializáveis, mas achei queforeachPartition é executado no mestre, onde o Spark Context e o ...