Resultados da pesquisa a pedido "apache-spark"
Erro de execução do Spark java.lang.NoClassDefFoundError: org / codehaus / jackson / annotate / JsonClass
import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import play.api.libs.json._ import java.util.Date import javax.xml.bind.DatatypeConverter object Test { def main(args:Array[String]): Unit = { val logFile="test.txt" val ...
Spark usando python: como resolver o estágio x contém uma tarefa de tamanho muito grande (xxx KB). O tamanho máximo recomendado da tarefa é 100 KB
Acabei de criar uma lista python derange(1,100000). Usando o SparkContext, execute as seguintes etapas: a = sc.parallelize([i for i in range(1, 100000)]) b = sc.parallelize([i for i in range(1, 100000)]) c = a.zip(b) >>> [(1, 1), (2, 2), -----] ...
Como definir os valores de configuração do hadoop no pyspark
A versão Scala do SparkContext possui a propriedade sc.hadoopConfigurationEu usei isso com sucesso para definir propriedades do Hadoop (no Scala) por exemplo. sc.hadoopConfiguration.set("my.mapreduce.setting","someVal")No entanto, a ...
Por que o aplicativo spark falha com "executor.CoarseGrainedExecutorBackend: Driver Disassociated"?
Quando executo a consulta sql via spark-submit e spark-sql, o aplicativo spark correspondente sempre falha com o seguinte erro: 15/03/10 18:50:52 INFO util.AkkaUtils: Connecting to ...
Spark streaming DStream RDD para obter o nome do arquivo
Spark streamingtextFileStream efileStream pode monitorar um diretório e processar os novos arquivos em um Dstream RDD. Como obter os nomes de arquivos que estão sendo processados pelo DStream RDD nesse intervalo específico?
Transmissão Spark: HDFS
Não consigo fazer meu trabalho do Spark transmitir arquivos "antigos" do HDFS.Se meu trabalho do Spark estiver desativado por algum motivo (por exemplo, demonstração, implantação), mas a gravação / migração para o diretório HDFS for contínua, eu ...
Atualizando uma coluna de quadro de dados no spark
Observando a nova API do spark dataframe, não está claro se é possível modificar as colunas do dataframe. Como eu alteraria um valor na linhax colunay de um quadro de dados? Nopandas este seriadf.ix[x,y] = new_value Edit: consolidando o que ...
Depurando aplicativos Spark
Estou tentando depurar um aplicativo Spark em um cluster usando um mestre e vários nós de trabalho. Consegui configurar o nó mestre e os nós de trabalhador usando o gerenciador de cluster independente Spark. Fiz o download da pasta spark com ...
escalabilidade de centelha: o que estou fazendo de errado?
Estou processando dados com spark e ele funciona com um dia de dados (40G), mas falha comOOMem uma semana de dados: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc = pyspark.sql.SQLContext(sc) ...
por que o spark.executor.instances não funciona? [duplicado]
Esta pergunta já tem uma resposta aqui: Apache Spark: definir instâncias do executor não altera os executores [/questions/29940711/apache-spark-setting-executor-instances-does-not-change-the-executors] 4 respostasEstou usando 40 escravos ...