Resultados da pesquisa a pedido "apache-spark"
O Spark SQL falha porque "O pool constante cresceu além do limite da JVM de 0xFFFF"
Estou executando esse código no EMR 4.6.0 + Spark 1.6.1: val sqlContext = SQLContext.getOrCreate(sc) val inputRDD = sqlContext.read.json(input) try { inputRDD.filter("`first_field` is not null OR `second_field` is not ...
O que é uma maneira eficiente de particionar por coluna, mas manter uma contagem de partições fixa?
Qual é a melhor maneira de particionar os dados por um campo na contagem de partições predefinida? No momento, estou particionando os dados especificando o partionCount = 600. A contagem 600 foi encontrada para fornecer o melhor desempenho de ...
Spark 2.0: caminho relativo em URI absoluto (spark-warehouse)
Estou tentando migrar do Spark 1.6.1 para o Spark 2.0.0 e estou recebendo um erro estranho ao tentar ler um arquivo csv no SparkSQL. Anteriormente, quando eu lia um arquivo do disco local no pyspark, eu fazia: Spark 1.6 df = sqlContext.read \ ...
Como reparticionar uniformemente o Spark?
Para testar como.repartition() funciona, executei o seguinte código: rdd = sc.parallelize(range(100)) rdd.getNumPartitions()rdd.getNumPartitions() resultou em4. Então eu corri: rdd = rdd.repartition(10) ...
Pool de conexão em um aplicativo pyspark de streaming
Qual é a maneira correta de usar pools de conexão em um aplicativo pyspark de streaming? Eu li ...
Apache Spark Manipulando Dados Inclinados
Eu tenho duas mesas que eu gostaria de juntar. Um deles tem uma inclinação muito ruim de dados. Isso está fazendo com que o meu trabalho spark não seja executado em paralelo, pois a maioria do trabalho é feita em uma partição. Ouvi e li e tentei ...
Aumentando o spark.yarn.executor.memoryOverhead
Estou tentando executar um trabalho (py) Spark no EMR que processará uma grande quantidade de dados. Atualmente, meu trabalho está falhando com a seguinte mensagem de erro: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of ...
Recuperar n top em cada grupo de um DataFrame no pyspark
Há um DataFrame no pyspark com os dados abaixo: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6O que eu espero é retornar 2 registros em cada grupo com o mesmo ...
Como obter o Precision / Recall usando o CrossValidator para treinar o NaiveBayes Model usando o Spark
Suposto eu tenho um pipeline como este: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features") val idf = new ...
Como iterar scala wrapArray? (Faísca)
Eu executo as seguintes operações: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val listDocs ...