Resultados da pesquisa a pedido "apache-spark"
como alterar uma coluna Dataframe do tipo String para Double type no pyspark
Eu tenho um quadro de dados com coluna como String. Eu queria mudar o tipo de coluna para Double type no PySpark. A seguir está o caminho, eu fiz: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...
Como obter detalhes das palavras do TF Vector RDD no Spark ML Lib?
Eu criei Term Frequency usandoHashingTF no Spark. Eu tenho o termo frequências usandotf.transform para cada palavra. Mas os resultados estão sendo mostrados neste formato. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...
Gravar dados no Redis do PySpark
Em Scala, escreveríamos um RDD para Redis assim: datardd.foreachPartition(iter => { val r = new RedisClient("hosturl", 6379) iter.foreach(i => { val (str, it) = i val map = it.toMap r.hmset(str, map) }) }) Eu tentei fazer isso no PySpark ...
Como salvar modelos do ML Pipeline para S3 ou HDFS?
Estou tentando salvar milhares de modelos produzidos pelo ML Pipeline. Conforme indicado na respostaaqui [https://stackoverflow.com/questions/32121046/run-3000-random-forest-models-by-group-using-spark-mllib-scala-api] , os modelos podem ser ...
“Substituição incorreta” ao enviar uma tarefa de faísca ao cluster de fios
Estou fazendo um teste de fumaça contra um cluster de fios usandoyarn-cluster como o mestre com oSparkPi programa de exemplo. Aqui está a linha de comando: $SPARK_HOME/bin/spark-submit --master yarn-cluster --executor-memory 8G --executor-cores ...
Erro ao executar o trabalho no Spark 1.4.0 com módulo Jackson com ScalaObjectMapper
Estou executando um trabalho spark escrito no Scala 2.10.4 e executando no cluster Spark 1.4.0 (baseado no HDFS e gerenciado com YARN) e usando os módulos Jackson versão 2.6.1 no repositório Maven Ao executar o código localmente no meu IDE ...
Spark e SparkSQL: Como imitar a função de janela?
DescriçãoDado um quadro de dadosdf id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04Eu quero criar um contador ou índice em execução, agrupados pelo mesmo id eclassificados por data nesse ...
O que setMaster `local [*]` significa no spark?
Encontrei algum código para iniciar o spark localmente: val conf = new SparkConf().setAppName("test").setMaster("local[*]") val ctx = new SparkContext(conf)O que faz o[*] significar?
Remover tabelas temporárias do Apache SQL Spark
eu tenhoregistertemptable noApache Spark usandoZeppelin abaixo: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => ...
Como alterar as propriedades do SparkContext na sessão do Interactive PySpark
Como posso alterar o spark.driver.maxResultSize no shell interativo pyspark? Eu usei o seguinte código from pyspark import SparkConf, SparkContext conf = (SparkConf() .set("spark.driver.maxResultSize", "10g")) sc.stop() sc=SparkContext(conf)mas ...