Resultados da pesquisa a pedido "apache-spark"
Como excluir jar no plugin de montagem final sbt
Preciso excluir as dependências de faísca e teste do meu frasco de montagem final. Eu tentei usarprovider mas não estava funcionando. libraryDependencies ++= Seq("org.apache.spark" % "spark-core_2.11" % "2.0.1" % "provided")e executarsbt ...
Como forçar a avaliação do DataFrame no Spark
Às vezes (por exemplo, para teste e bechmarking) eu quero forçar a execução das transformações definidas em um DataFrame. AFAIK chamando uma ação comocount não garante que todosColumns são realmente computados,show pode computar apenas ...
Como encontrar a média das colunas de vetor agrupadas no Spark SQL?
Eu criei umRelationalGroupedDataset chamandoinstances.groupBy(instances.col("property_name")): val x = instances.groupBy(instances.col("property_name"))Como componho umfunção agregada definida pelo ...
Como obter os melhores parâmetros após o ajuste por pyspark.ml.tuning.TrainValidationSplit?
Estou tentando ajustar os hiperparâmetros de um Spark (PySpark)ALS modelo porTrainValidationSplit. Funciona bem, mas quero saber qual combinação de hiperparâmetros é a melhor. Como obter os melhores parâmetros após a avaliação? from ...
Spark SQL datado em segundos
Eu tenho o seguinte código: table.select(datediff(table.col("Start Time"), table.col("End Time"))).show()O formato da data é2016-05-19 09:23:28 (YYYY-MM-DD HH:mm:SS) Funçãodatediffcalcule a diferença em dias. Mas eu gostaria de ter a diferença ...
como converter todas as colunas do dataframe em string
Eu tenho um quadro de dados do tipo misto. Estou lendo esse quadro de dados da tabela de colméias usandospark.sql('select a,b,c from table') comando. Algumas colunas são int, bigint, double e outras são string. Existem 32 colunas no total. ...
SparkContext.addJar não funciona no modo local
Quando é necessário um arquivo jar em um trabalho spark, ele precisa ser adicionado ao trabalho spark de duas maneiras: 1--jar path opção no comando. 2)SparkContext.addJar("path"). Alguém pode me dizer a diferença entre essas duas ...
Como escrever um fluxo estruturado do ElasticsearchSink for Spark
Estou usando o fluxo estruturado do Spark para processar dados de alto volume da fila Kafka e fazendo alguns cálculos de ML, mas preciso escrever o resultado no Elasticsearch. Eu tentei usar oForeachWriter mas não consegueSparkContext dentro ...
Como classificamos o dataframe?
Eu tenho o dataframe de amostra como abaixo: i / p accountNumber assetValue A100 1000 A100 500 B100 600 B100 200o / p AccountNumber assetValue Rank A100 1000 1 A100 500 2 B100 600 1 B100 200 2Agora, minha pergunta é como adicionamos essa ...
Left Anti ingressar no Spark?
Eu defini duas tabelas como esta: val tableName = "table1" val tableName2 = "table2" val format = new SimpleDateFormat("yyyy-MM-dd") val data = List( List("mike", 26, true), List("susan", 26, false), List("john", 33, true) ) val data2 = ...