Resultados da pesquisa a pedido "apache-spark"

É possível converter um streamingo.a.s.sql.Dataset paraDStream? Se sim, como? Eu sei como convertê-lo em RDD, mas está em um contexto de streaming.

0 a resposta

Como configurar corretamente o spark fair scheduler e pools?

Estou executando um teste simples do aplicativo spark, que lê um ano de dados e grava a mesma quantidade de dados no Hive, particionada por dia. Antes de escrever, uno-me a 15 partições de cada arquivo, para não ter muitos arquivos pequenos ...

collect rdd pyspark

0 a resposta

A operação de RDD collect () está falhando com o erro "Nenhum módulo chamado pyspark"

Estou tentando executar a operação de coleta abaixo no RDD, criada a partir do Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aqui estão algumas observações de obj_filter, obj_filter.show ...

dataframe scala

1 a resposta

Mesclar vários registros em um dataframe com base em uma chave no scala spark

Eu tenho um quadro de dados que contém registros identificados por uma chave. Mas pode haver um caso em que uma chave pode se tornar repetitiva. Meu objetivo é mesclar todos os registros com base nessa chave da seguinte maneira Vamos supor que ...

hadoop hdfs

2 a resposta

Como usar o Hadoop InputFormats no Apache Spark?

Eu tenho aulaImageInputFormat no Hadoop, que lê imagens do HDFS. Como usar meu InputFormat no Spark? Aqui está o meuImageInputFormat: public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> { @Override public ...

dataframe pyspark rdd

2 a resposta

passando o valor de RDD para outro RDD como variável - Spark #Pyspark [duplicado]

Esta pergunta já tem uma resposta aqui: Como obter um valor do objeto Row no Spark Dataframe? [/questions/37999657/how-to-get-a-value-from-the-row-object-in-spark-dataframe] 3 respostasAtualmente, estou explorando como chamar grandes arquivos ...

kubernetes

3 a resposta

O Kubernetes 1.9 não pode inicializar o SparkContext

Tentando acompanhar a documentação do Spark 2.3 sobre como implantar tarefas em um cluster Kubernetes 1.9.3: http://spark.apache.org/docs/latest/running-on-kubernetes.html [http://spark.apache.org/docs/latest/running-on-kubernetes.html] O ...

python

1 a resposta

Lista (ou iterador) de tuplas retornadas pelo MAP (PySpark)

Eu tenho um método mapeador: def mapper(value): ... for key, value in some_list: yield key, valueo que eu preciso não está muito longe do exemplo comum de contagem de palavras, na verdade. Eu já tenho um script de trabalho, mas apenas se o ...

cassandra azure-data-factory pyspark

2 a resposta

usar pacote spark cassandra no Azure Data Factory

Criei um script pyspark que funciona bem quando o executo comspark-submit: spark-submit --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.6 --conf spark.cassandra.connection.host=12.34.56.68 test_cassandra.pyComo estou trabalhando ...

apache-spark-sql sql scala

3 a resposta

A diferença entre countDistinct e distinct.count

Por que obtenho saídas diferentes para..agg(countDistinct("member_id") as "count") e..distinct.count? A diferença é a mesma que entreselect count(distinct member_id) eselect distinct count(member_id)?

Página 74 do 167

72 737475 76

Resultados da pesquisa a pedido "apache-spark"

Converter entre o conjunto de dados de streaming e o DStream

Como configurar corretamente o spark fair scheduler e pools?

A operação de RDD collect () está falhando com o erro "Nenhum módulo chamado pyspark"

Tags populares

Mesclar vários registros em um dataframe com base em uma chave no scala spark

Como usar o Hadoop InputFormats no Apache Spark?

passando o valor de RDD para outro RDD como variável - Spark #Pyspark [duplicado]

O Kubernetes 1.9 não pode inicializar o SparkContext

Lista (ou iterador) de tuplas retornadas pelo MAP (PySpark)

usar pacote spark cassandra no Azure Data Factory

A diferença entre countDistinct e distinct.count

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares