Resultados da pesquisa a pedido "apache-spark"

Estou tentando configurar um código Sparkstreaming que lê a linha do servidor Kafka, mas o processa usando regras escritas em outro arquivo local. Estou criando streamingContext para os dados de streaming e sparkContext para outros aplicando ...

python pyspark apache-spark-sql

1 a resposta

Como selecionar e ordenar várias colunas em um Dataframe Pyspark após uma associação

Desejo selecionar várias colunas do quadro de dados existente (criado após as associações) e gostaria de ordenar os arquivos como minha estrutura de tabela de destino. Como pode ser feito ? A abordagem que usei está abaixo. Aqui eu sou capaz de ...

scala dataframe

1 a resposta

Scala: Como obter um intervalo de linhas em um dataframe

eu tenho umDataFrame criado executandosqlContext.read de um arquivo de parquet. oDataFrame consiste em 300 M. linhas. Preciso usar essas linhas como entrada para outra função, mas quero fazê-lo em lotes menores para evitar erros de ...

machine-learning bigdata pyspark one-hot-encoding

1 a resposta

Por que o OneHotEncoder do Spark descarta a última categoria por padrão?

Gostaria de entender o racional por trás do OneHotEncoder do Spark descartando a última categoria por padrão. Por exemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

apache-spark-sql scala

1 a resposta

Arrays de mesclagem / combinação de faíscas no grupo

O código Spark a seguir demonstra corretamente o que eu quero fazer e gera a saída correta com um pequeno conjunto de dados de demonstração. Quando executo esse mesmo tipo geral de código em um grande volume de dados de produção, estou tendo ...

java apache-spark-sql

1 a resposta

Como usar o Column.isin em Java?

Estou tentando filtrar um Spark DataFrame usando uma lista em Java. java.util.List<Long> selected = ....; DataFrame result = df.filter(df.col("something").isin(????));O problema é queisin(...) método aceita ScalaSeq ou ...

bigdata hdfs scala rdd

2 a resposta

Como posso salvar um RDD no HDFS e depois lê-lo novamente?

Eu tenho um RDD cujos elementos são do tipo (Long, String). Por alguma razão, quero salvar o RDD inteiro no HDFS e, posteriormente, também ler esse RDD novamente em um programa Spark. É possível fazer isso? E se sim, como?

parquet

1 a resposta

Contagem rápida de fileiras de parquet no Spark

Os arquivos do Parquet contêm um campo de contagem de linhas por bloco. O Spark parece lê-lo em algum momento ...

spark-cassandra-connector java cassandra maven

11 a resposta

java.lang.NoClassDefFoundError: org / apache / spark / Logging

Estou sempre recebendo o seguinte erro. Alguém pode me ajudar por favor? Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/Logging at java.lang.ClassLoader.defineClass1(Native Method) ...

apache-spark-sql parquet

1 a resposta

Exceção do Spark ao converter uma tabela MySQL em parquet

Estou tentando converter uma tabela remota do MySQL em um arquivo de parquet usando o spark 1.6.2. O processo é executado por 10 minutos, preenchendo a memória, e começa com estas mensagens: WARN NettyRpcEndpointRef: Error sending message ...

Página 30 do 167

28 293031 32

Resultados da pesquisa a pedido "apache-spark"

O SparkContext e o StreamingContext podem coexistir no mesmo programa?

Como selecionar e ordenar várias colunas em um Dataframe Pyspark após uma associação

Scala: Como obter um intervalo de linhas em um dataframe

Tags populares

Por que o OneHotEncoder do Spark descarta a última categoria por padrão?

Arrays de mesclagem / combinação de faíscas no grupo

Como usar o Column.isin em Java?

Como posso salvar um RDD no HDFS e depois lê-lo novamente?

Contagem rápida de fileiras de parquet no Spark

java.lang.NoClassDefFoundError: org / apache / spark / Logging

Exceção do Spark ao converter uma tabela MySQL em parquet

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares