Resultados da pesquisa a pedido "apache-spark"

1 a resposta

`combineByKey`, pyspark [duplicado]

Esta pergunta já tem uma resposta aqui: Quem pode dar uma explicação clara para `combineByKey` no Spark? [/questions/33937625/who-can-give-a-clear-explanation-for-combinebykey-in-spark] 1 resposta Apache Spark: Qual é a implementação ...

2 a resposta

qual é a diferença entre SparkSession e SparkContext? [duplicado

Esta pergunta já tem uma resposta aqui: Diferença entre SparkContext, JavaSparkContext, SQLContext e SparkSession? [/questions/43802809/difference-between-sparkcontext-javasparkcontext-sqlcontext-and-sparksession] 3 respostas Eu sei apenas a ...

4 a resposta

Utilize o esquema para converter mensagens AVRO com Spark em DataFrame

Existe uma maneira de usar um esquema para converter avro [/questions/tagged/avro] mensagens de kafka [/questions/tagged/kafka] comfaísc [/questions/tagged/spark] paraquadro de dado [/questions/tagged/dataframe]? O arquivo de esquema para ...

1 a resposta

Determinação do número ideal de partições Spark com base em trabalhadores, núcleos e tamanho do DataFrame

Existem vários conceitos semelhantes, porém diferentes, no Spark-land que envolvem como o trabalho é distribuído em diferentes nós e executado simultaneamente. Especificamente, há: O nó do Driver Spark sparkDriverCount)O número de nós do ...

1 a resposta

Como nivelar um quadro de dados pySpark por uma coluna de matriz? [duplicado

Esta pergunta já tem uma resposta aqui: ividir linhas complexas do quadro de dados em linhas simples no Pyspa [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 respostasEu tenho um spark dataframe ...

3 a resposta

Explode dados da matriz em linhas no spark [duplicado]

Esta pergunta já tem uma resposta aqui: ividir linhas complexas do quadro de dados em linhas simples no Pyspa [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 respostasTenho um conjunto de dados da seguinte ...

2 a resposta

Dataframe do filtro por valor NÃO presente na coluna de outro dataframe [duplicado]

Esta pergunta já tem uma resposta aqui: Filter Spark DataFrame com base em outro DataFrame que especifica os critérios da lista negra [/questions/39887526/filter-spark-dataframe-based-on-another-dataframe-that-specifies-blacklist-crite] 2 ...

1 a resposta

O que acontece se um RDD não puder caber na memória no Spark? [duplicado

Esta pergunta já tem uma resposta aqui: O que a faísca fará se eu não tiver memória suficiente? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 respostas Até onde eu sei, o Spark tenta fazer todo o cálculo na memória, ...

1 a resposta

escrevendo dados em cassandra no intervalo ceratin

Estou fazendo algum tipo de processamento no spark e quero implementar uma funcionalidade que, independentemente do processamento que está sendo executado, quero agendar um timer (em um intervalo de 5 minutos) que persista alguns dados no ...

3 a resposta

Como otimizar o particionamento ao migrar dados da fonte JDBC?

Estou tentando mover dados de uma tabela na tabela do PostgreSQL para uma tabela do Hive no HDFS. Para fazer isso, criei o seguinte código: val conf = ...