Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Converter entre o conjunto de dados de streaming e o DStream

É possível converter um streamingo.a.s.sql.Dataset paraDStream? Se sim, como? Eu sei como convertê-lo em RDD, mas está em um contexto de streaming.

0 a resposta

Como configurar corretamente o spark fair scheduler e pools?

Estou executando um teste simples do aplicativo spark, que lê um ano de dados e grava a mesma quantidade de dados no Hive, particionada por dia. Antes de escrever, uno-me a 15 partições de cada arquivo, para não ter muitos arquivos pequenos ...

0 a resposta

A operação de RDD collect () está falhando com o erro "Nenhum módulo chamado pyspark"

Estou tentando executar a operação de coleta abaixo no RDD, criada a partir do Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aqui estão algumas observações de obj_filter, obj_filter.show ...

1 a resposta

Mesclar vários registros em um dataframe com base em uma chave no scala spark

Eu tenho um quadro de dados que contém registros identificados por uma chave. Mas pode haver um caso em que uma chave pode se tornar repetitiva. Meu objetivo é mesclar todos os registros com base nessa chave da seguinte maneira Vamos supor que ...

2 a resposta

Como usar o Hadoop InputFormats no Apache Spark?

Eu tenho aulaImageInputFormat no Hadoop, que lê imagens do HDFS. Como usar meu InputFormat no Spark? Aqui está o meuImageInputFormat: public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> { @Override public ...

2 a resposta

passando o valor de RDD para outro RDD como variável - Spark #Pyspark [duplicado]

Esta pergunta já tem uma resposta aqui: Como obter um valor do objeto Row no Spark Dataframe? [/questions/37999657/how-to-get-a-value-from-the-row-object-in-spark-dataframe] 3 respostasAtualmente, estou explorando como chamar grandes arquivos ...

3 a resposta

O Kubernetes 1.9 não pode inicializar o SparkContext

Tentando acompanhar a documentação do Spark 2.3 sobre como implantar tarefas em um cluster Kubernetes 1.9.3: http://spark.apache.org/docs/latest/running-on-kubernetes.html [http://spark.apache.org/docs/latest/running-on-kubernetes.html] O ...

1 a resposta

Lista (ou iterador) de tuplas retornadas pelo MAP (PySpark)

Eu tenho um método mapeador: def mapper(value): ... for key, value in some_list: yield key, valueo que eu preciso não está muito longe do exemplo comum de contagem de palavras, na verdade. Eu já tenho um script de trabalho, mas apenas se o ...

2 a resposta

usar pacote spark cassandra no Azure Data Factory

Criei um script pyspark que funciona bem quando o executo comspark-submit: spark-submit --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.6 --conf spark.cassandra.connection.host=12.34.56.68 test_cassandra.pyComo estou trabalhando ...

3 a resposta

A diferença entre countDistinct e distinct.count

Por que obtenho saídas diferentes para..agg(countDistinct("member_id") as "count") e..distinct.count? A diferença é a mesma que entreselect count(distinct member_id) eselect distinct count(member_id)?