Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Como excluir jar no plugin de montagem final sbt

Preciso excluir as dependências de faísca e teste do meu frasco de montagem final. Eu tentei usarprovider mas não estava funcionando. libraryDependencies ++= Seq("org.apache.spark" % "spark-core_2.11" % "2.0.1" % "provided")e executarsbt ...

4 a resposta

Como forçar a avaliação do DataFrame no Spark

Às vezes (por exemplo, para teste e bechmarking) eu quero forçar a execução das transformações definidas em um DataFrame. AFAIK chamando uma ação comocount não garante que todosColumns são realmente computados,show pode computar apenas ...

1 a resposta

Como encontrar a média das colunas de vetor agrupadas no Spark SQL?

Eu criei umRelationalGroupedDataset chamandoinstances.groupBy(instances.col("property_name")): val x = instances.groupBy(instances.col("property_name"))Como componho umfunção agregada definida pelo ...

1 a resposta

Como obter os melhores parâmetros após o ajuste por pyspark.ml.tuning.TrainValidationSplit?

Estou tentando ajustar os hiperparâmetros de um Spark (PySpark)ALS modelo porTrainValidationSplit. Funciona bem, mas quero saber qual combinação de hiperparâmetros é a melhor. Como obter os melhores parâmetros após a avaliação? from ...

1 a resposta

Spark SQL datado em segundos

Eu tenho o seguinte código: table.select(datediff(table.col("Start Time"), table.col("End Time"))).show()O formato da data é2016-05-19 09:23:28 (YYYY-MM-DD HH:mm:SS) Funçãodatediffcalcule a diferença em dias. Mas eu gostaria de ter a diferença ...

3 a resposta

como converter todas as colunas do dataframe em string

Eu tenho um quadro de dados do tipo misto. Estou lendo esse quadro de dados da tabela de colméias usandospark.sql('select a,b,c from table') comando. Algumas colunas são int, bigint, double e outras são string. Existem 32 colunas no total. ...

1 a resposta

SparkContext.addJar não funciona no modo local

Quando é necessário um arquivo jar em um trabalho spark, ele precisa ser adicionado ao trabalho spark de duas maneiras: 1--jar path opção no comando. 2)SparkContext.addJar("path"). Alguém pode me dizer a diferença entre essas duas ...

2 a resposta

Como escrever um fluxo estruturado do ElasticsearchSink for Spark

Estou usando o fluxo estruturado do Spark para processar dados de alto volume da fila Kafka e fazendo alguns cálculos de ML, mas preciso escrever o resultado no Elasticsearch. Eu tentei usar oForeachWriter mas não consegueSparkContext dentro ...

2 a resposta

Como classificamos o dataframe?

Eu tenho o dataframe de amostra como abaixo: i / p accountNumber assetValue A100 1000 A100 500 B100 600 B100 200o / p AccountNumber assetValue Rank A100 1000 1 A100 500 2 B100 600 1 B100 200 2Agora, minha pergunta é como adicionamos essa ...

2 a resposta

Left Anti ingressar no Spark?

Eu defini duas tabelas como esta: val tableName = "table1" val tableName2 = "table2" val format = new SimpleDateFormat("yyyy-MM-dd") val data = List( List("mike", 26, true), List("susan", 26, false), List("john", 33, true) ) val data2 = ...