Resultados da pesquisa a pedido "apache-spark"

2 a resposta

O SparkContext e o StreamingContext podem coexistir no mesmo programa?

Estou tentando configurar um código Sparkstreaming que lê a linha do servidor Kafka, mas o processa usando regras escritas em outro arquivo local. Estou criando streamingContext para os dados de streaming e sparkContext para outros aplicando ...

1 a resposta

Como selecionar e ordenar várias colunas em um Dataframe Pyspark após uma associação

Desejo selecionar várias colunas do quadro de dados existente (criado após as associações) e gostaria de ordenar os arquivos como minha estrutura de tabela de destino. Como pode ser feito ? A abordagem que usei está abaixo. Aqui eu sou capaz de ...

1 a resposta

Scala: Como obter um intervalo de linhas em um dataframe

eu tenho umDataFrame criado executandosqlContext.read de um arquivo de parquet. oDataFrame consiste em 300 M. linhas. Preciso usar essas linhas como entrada para outra função, mas quero fazê-lo em lotes menores para evitar erros de ...

1 a resposta

Por que o OneHotEncoder do Spark descarta a última categoria por padrão?

Gostaria de entender o racional por trás do OneHotEncoder do Spark descartando a última categoria por padrão. Por exemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

1 a resposta

Arrays de mesclagem / combinação de faíscas no grupo

O código Spark a seguir demonstra corretamente o que eu quero fazer e gera a saída correta com um pequeno conjunto de dados de demonstração. Quando executo esse mesmo tipo geral de código em um grande volume de dados de produção, estou tendo ...

1 a resposta

Como usar o Column.isin em Java?

Estou tentando filtrar um Spark DataFrame usando uma lista em Java. java.util.List<Long> selected = ....; DataFrame result = df.filter(df.col("something").isin(????));O problema é queisin(...) método aceita ScalaSeq ou ...

2 a resposta

Como posso salvar um RDD no HDFS e depois lê-lo novamente?

Eu tenho um RDD cujos elementos são do tipo (Long, String). Por alguma razão, quero salvar o RDD inteiro no HDFS e, posteriormente, também ler esse RDD novamente em um programa Spark. É possível fazer isso? E se sim, como?

1 a resposta

Contagem rápida de fileiras de parquet no Spark

Os arquivos do Parquet contêm um campo de contagem de linhas por bloco. O Spark parece lê-lo em algum momento ...

11 a resposta

java.lang.NoClassDefFoundError: org / apache / spark / Logging

Estou sempre recebendo o seguinte erro. Alguém pode me ajudar por favor? Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/Logging at java.lang.ClassLoader.defineClass1(Native Method) ...

1 a resposta

Exceção do Spark ao converter uma tabela MySQL em parquet

Estou tentando converter uma tabela remota do MySQL em um arquivo de parquet usando o spark 1.6.2. O processo é executado por 10 minutos, preenchendo a memória, e começa com estas mensagens: WARN NettyRpcEndpointRef: Error sending message ...