Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Erro de execução do Spark java.lang.NoClassDefFoundError: org / codehaus / jackson / annotate / JsonClass

import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import play.api.libs.json._ import java.util.Date import javax.xml.bind.DatatypeConverter object Test { def main(args:Array[String]): Unit = { val logFile="test.txt" val ...

3 a resposta

Spark usando python: como resolver o estágio x contém uma tarefa de tamanho muito grande (xxx KB). O tamanho máximo recomendado da tarefa é 100 KB

Acabei de criar uma lista python derange(1,100000). Usando o SparkContext, execute as seguintes etapas: a = sc.parallelize([i for i in range(1, 100000)]) b = sc.parallelize([i for i in range(1, 100000)]) c = a.zip(b) >>> [(1, 1), (2, 2), -----] ...

3 a resposta

Como definir os valores de configuração do hadoop no pyspark

A versão Scala do SparkContext possui a propriedade sc.hadoopConfigurationEu usei isso com sucesso para definir propriedades do Hadoop (no Scala) por exemplo. sc.hadoopConfiguration.set("my.mapreduce.setting","someVal")No entanto, a ...

2 a resposta

Por que o aplicativo spark falha com "executor.CoarseGrainedExecutorBackend: Driver Disassociated"?

Quando executo a consulta sql via spark-submit e spark-sql, o aplicativo spark correspondente sempre falha com o seguinte erro: 15/03/10 18:50:52 INFO util.AkkaUtils: Connecting to ...

2 a resposta

Spark streaming DStream RDD para obter o nome do arquivo

Spark streamingtextFileStream efileStream pode monitorar um diretório e processar os novos arquivos em um Dstream RDD. Como obter os nomes de arquivos que estão sendo processados pelo DStream RDD nesse intervalo específico?

3 a resposta

Transmissão Spark: HDFS

Não consigo fazer meu trabalho do Spark transmitir arquivos "antigos" do HDFS.Se meu trabalho do Spark estiver desativado por algum motivo (por exemplo, demonstração, implantação), mas a gravação / migração para o diretório HDFS for contínua, eu ...

4 a resposta

Atualizando uma coluna de quadro de dados no spark

Observando a nova API do spark dataframe, não está claro se é possível modificar as colunas do dataframe. Como eu alteraria um valor na linhax colunay de um quadro de dados? Nopandas este seriadf.ix[x,y] = new_value Edit: consolidando o que ...

5 a resposta

Depurando aplicativos Spark

Estou tentando depurar um aplicativo Spark em um cluster usando um mestre e vários nós de trabalho. Consegui configurar o nó mestre e os nós de trabalhador usando o gerenciador de cluster independente Spark. Fiz o download da pasta spark com ...

2 a resposta

escalabilidade de centelha: o que estou fazendo de errado?

Estou processando dados com spark e ele funciona com um dia de dados (40G), mas falha comOOMem uma semana de dados: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc = pyspark.sql.SQLContext(sc) ...

1 a resposta

por que o spark.executor.instances não funciona? [duplicado]

Esta pergunta já tem uma resposta aqui: Apache Spark: definir instâncias do executor não altera os executores [/questions/29940711/apache-spark-setting-executor-instances-does-not-change-the-executors] 4 respostasEstou usando 40 escravos ...