Resultados da pesquisa a pedido "apache-spark"

3 a resposta

O Spark SQL falha porque "O pool constante cresceu além do limite da JVM de 0xFFFF"

Estou executando esse código no EMR 4.6.0 + Spark 1.6.1: val sqlContext = SQLContext.getOrCreate(sc) val inputRDD = sqlContext.read.json(input) try { inputRDD.filter("`first_field` is not null OR `second_field` is not ...

1 a resposta

O que é uma maneira eficiente de particionar por coluna, mas manter uma contagem de partições fixa?

Qual é a melhor maneira de particionar os dados por um campo na contagem de partições predefinida? No momento, estou particionando os dados especificando o partionCount = 600. A contagem 600 foi encontrada para fornecer o melhor desempenho de ...

1 a resposta

Spark 2.0: caminho relativo em URI absoluto (spark-warehouse)

Estou tentando migrar do Spark 1.6.1 para o Spark 2.0.0 e estou recebendo um erro estranho ao tentar ler um arquivo csv no SparkSQL. Anteriormente, quando eu lia um arquivo do disco local no pyspark, eu fazia: Spark 1.6 df = sqlContext.read \ ...

1 a resposta

Como reparticionar uniformemente o Spark?

Para testar como.repartition() funciona, executei o seguinte código: rdd = sc.parallelize(range(100)) rdd.getNumPartitions()rdd.getNumPartitions() resultou em4. Então eu corri: rdd = rdd.repartition(10) ...

1 a resposta

Pool de conexão em um aplicativo pyspark de streaming

Qual é a maneira correta de usar pools de conexão em um aplicativo pyspark de streaming? Eu li ...

1 a resposta

Apache Spark Manipulando Dados Inclinados

Eu tenho duas mesas que eu gostaria de juntar. Um deles tem uma inclinação muito ruim de dados. Isso está fazendo com que o meu trabalho spark não seja executado em paralelo, pois a maioria do trabalho é feita em uma partição. Ouvi e li e tentei ...

2 a resposta

Aumentando o spark.yarn.executor.memoryOverhead

Estou tentando executar um trabalho (py) Spark no EMR que processará uma grande quantidade de dados. Atualmente, meu trabalho está falhando com a seguinte mensagem de erro: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of ...

3 a resposta

Recuperar n top em cada grupo de um DataFrame no pyspark

Há um DataFrame no pyspark com os dados abaixo: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6O que eu espero é retornar 2 registros em cada grupo com o mesmo ...

1 a resposta

Como obter o Precision / Recall usando o CrossValidator para treinar o NaiveBayes Model usando o Spark

Suposto eu tenho um pipeline como este: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features") val idf = new ...

1 a resposta

Como iterar scala wrapArray? (Faísca)

Eu executo as seguintes operações: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val listDocs ...