Resultados da pesquisa a pedido "apache-spark"
O SparkContext e o StreamingContext podem coexistir no mesmo programa?
Estou tentando configurar um código Sparkstreaming que lê a linha do servidor Kafka, mas o processa usando regras escritas em outro arquivo local. Estou criando streamingContext para os dados de streaming e sparkContext para outros aplicando ...
Como selecionar e ordenar várias colunas em um Dataframe Pyspark após uma associação
Desejo selecionar várias colunas do quadro de dados existente (criado após as associações) e gostaria de ordenar os arquivos como minha estrutura de tabela de destino. Como pode ser feito ? A abordagem que usei está abaixo. Aqui eu sou capaz de ...
Scala: Como obter um intervalo de linhas em um dataframe
eu tenho umDataFrame criado executandosqlContext.read de um arquivo de parquet. oDataFrame consiste em 300 M. linhas. Preciso usar essas linhas como entrada para outra função, mas quero fazê-lo em lotes menores para evitar erros de ...
Por que o OneHotEncoder do Spark descarta a última categoria por padrão?
Gostaria de entender o racional por trás do OneHotEncoder do Spark descartando a última categoria por padrão. Por exemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...
Arrays de mesclagem / combinação de faíscas no grupo
O código Spark a seguir demonstra corretamente o que eu quero fazer e gera a saída correta com um pequeno conjunto de dados de demonstração. Quando executo esse mesmo tipo geral de código em um grande volume de dados de produção, estou tendo ...
Como usar o Column.isin em Java?
Estou tentando filtrar um Spark DataFrame usando uma lista em Java. java.util.List<Long> selected = ....; DataFrame result = df.filter(df.col("something").isin(????));O problema é queisin(...) método aceita ScalaSeq ou ...
Como posso salvar um RDD no HDFS e depois lê-lo novamente?
Eu tenho um RDD cujos elementos são do tipo (Long, String). Por alguma razão, quero salvar o RDD inteiro no HDFS e, posteriormente, também ler esse RDD novamente em um programa Spark. É possível fazer isso? E se sim, como?
Contagem rápida de fileiras de parquet no Spark
Os arquivos do Parquet contêm um campo de contagem de linhas por bloco. O Spark parece lê-lo em algum momento ...
java.lang.NoClassDefFoundError: org / apache / spark / Logging
Estou sempre recebendo o seguinte erro. Alguém pode me ajudar por favor? Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/Logging at java.lang.ClassLoader.defineClass1(Native Method) ...
Exceção do Spark ao converter uma tabela MySQL em parquet
Estou tentando converter uma tabela remota do MySQL em um arquivo de parquet usando o spark 1.6.2. O processo é executado por 10 minutos, preenchendo a memória, e começa com estas mensagens: WARN NettyRpcEndpointRef: Error sending message ...