Resultados da pesquisa a pedido "apache-spark"
Diferenças de chave SPARK-HIVE entre Hive e Parquet da perspectiva do processamento do esquema da tabela
Eu sou novo em faísca e colméia. Eu não entendo a afirmação "O Hive considera todas as colunas anuláveis, enquanto a anulabilidade no Parquet é significativa" Se alguém explicar a afirmação com exemplo, será melhor para mim. Agradeça ao seu.
Por que o Apache Spark lê colunas Parquet desnecessárias em estruturas aninhadas?
Minha equipe está criando um processo ETL para carregar arquivos de texto delimitados em bruto em um "data lake" baseado em Parquet usando o Spark. Uma das promessas do armazenamento de colunas do Parquet é que uma consulta leia apenas as "faixas ...
Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 segundos]"?
Estou usando o Spark 1.5. Eu tenho dois quadros de dados do formulário: scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> linkPersonItemLessThan500DF ...
Lendo arquivos dinamicamente a partir do HDFS a partir das funções de transformação do spark
Como um arquivo do HDFS pode ser lido em uma função spark que não usa sparkContext dentro da função. Exemplo: val filedata_rdd = rdd.map { x => ReadFromHDFS(x.getFilePath) }Pergunta é como ReadFromHDFS pode ser implementado? Geralmente, para ...
Spark 2.0 ausente implícito no spark
Usando o Spark 2.0, estou vendo que é possível transformar um quadro de dados de linha em um quadro de dados de classes de caso. Quando tento fazer isso, sou recebido com uma mensagem informando para importarspark.implicits._. O problema que ...
Lendo um gráfico grande de Titan (no HBase) no Spark
Estou pesquisando o Titan (no HBase) como candidato a um grande banco de dados de gráficos distribuídos. Exigimos o acesso OLTP (consultas rápidas e de vários saltos no gráfico) e o acesso OLAP (carregando todo - ou pelo menos uma grande parte - ...
Como anexar a um arquivo csv usando df.write.csv no pyspark?
Estou tentando acrescentar dados ao meu arquivo csv usandodf.write.csv. Foi o que fiz depois de seguir o documento do ...
Geração de código de estágio completo no Spark 2.0
Eu ouvi sobreWhole-Stage Code Generation para sql para otimizar consultas. atravésp539-neumann.pdf [http://www.vldb.org/pvldb/vol4/p539-neumann.pdf] & ...
Como usar SQLContext e SparkContext dentro de foreachPartition
Eu quero usar SparkContext e SQLContext dentroforeachPartition, mas não foi possível devido a erro de serialização. Eu sei que os dois objetos não são serializáveis, mas achei queforeachPartition é executado no mestre, onde o Spark Context e o ...