Resultados da pesquisa a pedido "apache-spark"

4 a resposta

como alterar uma coluna Dataframe do tipo String para Double type no pyspark

Eu tenho um quadro de dados com coluna como String. Eu queria mudar o tipo de coluna para Double type no PySpark. A seguir está o caminho, eu fiz: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...

1 a resposta

Como obter detalhes das palavras do TF Vector RDD no Spark ML Lib?

Eu criei Term Frequency usandoHashingTF no Spark. Eu tenho o termo frequências usandotf.transform para cada palavra. Mas os resultados estão sendo mostrados neste formato. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...

1 a resposta

Gravar dados no Redis do PySpark

Em Scala, escreveríamos um RDD para Redis assim: datardd.foreachPartition(iter => { val r = new RedisClient("hosturl", 6379) iter.foreach(i => { val (str, it) = i val map = it.toMap r.hmset(str, map) }) }) Eu tentei fazer isso no PySpark ...

3 a resposta

Como salvar modelos do ML Pipeline para S3 ou HDFS?

Estou tentando salvar milhares de modelos produzidos pelo ML Pipeline. Conforme indicado na respostaaqui [https://stackoverflow.com/questions/32121046/run-3000-random-forest-models-by-group-using-spark-mllib-scala-api] , os modelos podem ser ...

6 a resposta

“Substituição incorreta” ao enviar uma tarefa de faísca ao cluster de fios

Estou fazendo um teste de fumaça contra um cluster de fios usandoyarn-cluster como o mestre com oSparkPi programa de exemplo. Aqui está a linha de comando: $SPARK_HOME/bin/spark-submit --master yarn-cluster --executor-memory 8G --executor-cores ...

1 a resposta

Erro ao executar o trabalho no Spark 1.4.0 com módulo Jackson com ScalaObjectMapper

Estou executando um trabalho spark escrito no Scala 2.10.4 e executando no cluster Spark 1.4.0 (baseado no HDFS e gerenciado com YARN) e usando os módulos Jackson versão 2.6.1 no repositório Maven Ao executar o código localmente no meu IDE ...

3 a resposta

Spark e SparkSQL: Como imitar a função de janela?

DescriçãoDado um quadro de dadosdf id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04Eu quero criar um contador ou índice em execução, agrupados pelo mesmo id eclassificados por data nesse ...

4 a resposta

O que setMaster `local [*]` significa no spark?

Encontrei algum código para iniciar o spark localmente: val conf = new SparkConf().setAppName("test").setMaster("local[*]") val ctx = new SparkContext(conf)O que faz o[*] significar?

3 a resposta

Remover tabelas temporárias do Apache SQL Spark

eu tenhoregistertemptable noApache Spark usandoZeppelin abaixo: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => ...

3 a resposta

Como alterar as propriedades do SparkContext na sessão do Interactive PySpark

Como posso alterar o spark.driver.maxResultSize no shell interativo pyspark? Eu usei o seguinte código from pyspark import SparkConf, SparkContext conf = (SparkConf() .set("spark.driver.maxResultSize", "10g")) sc.stop() sc=SparkContext(conf)mas ...