Resultados da pesquisa a pedido "apache-spark"
sombreamento de montagem sbt para criar jar de gordura para executar na faísca
Estou usando o assembly sbt para criar um frasco de gordura que pode funcionar com faísca. Tem dependências emgrpc-netty. A versão do Goiaba no spark é mais antiga que a exigida pelogrpc-netty e eu me deparo com este ...
Como usar o DataFrame withColumn e não alterar a partição?
Por alguma razão eu tenho que converterRDD paraDataFrame, então faça algo comDataFrame. Minha interface éRDDentão eu tenho que converterDataFrame paraRDD, E quando eu usodf.withcolumn, a partição muda para 1, então eu tenho querepartition ...
Como usar o UDF para retornar várias colunas?
É possível criar um UDF que retornaria o conjunto de colunas? I.e. tendo um quadro de dados da seguinte maneira: | Feature1 | Feature2 | Feature 3 | | 1.3 | 3.4 | 4.5 |Agora eu gostaria de extrair um novo recurso, que pode ser descrito como um ...
PySpark, principal para DataFrame
O que eu quero fazer é um DataFrame, pegue os n elementos principais de acordo com alguma coluna especificada. O topo (self, num) na API RDD é exatamente o que eu quero. Gostaria de saber se existe API equivalente no mundo DataFrame? Minha ...
Criando / acessando dataframe dentro da transformação de outro dataframe
Estou atualizando algum código existente para usar o Spark. Eu tenho vários quadros de dados que contêm conjuntos de dados diferentes. Ao transformar meu quadro de dados principal (ou meu conjunto de dados principal), preciso usar dados de outros ...
Executando uma contagem de palavras Spark no IntelliJ
Passei horas analisando vídeos e tutoriais do You Tube tentando entender como executo um programa de contagem de palavras para Spark, no Scala, e transformá-lo em um arquivo jar. Estou ficando totalmente confuso agora. Eu tenho o Hello World em ...
Por que o RDD.foreach falha com "SparkException: este RDD não possui um SparkContext"?
Eu tenho um conjunto de dados (como umRDD) que divido em 4 RDDs usando diferentesfilter operadores. val RSet = datasetRdd. flatMap(x => RSetForAttr(x, alLevel, hieDict)). map(x => (x, 1)). reduceByKey((x, y) => x + y) val Rp:RDD[(String, Int)] = ...
Problemas ao adicionar uma nova coluna a um quadro de dados - spark / scala
Eu sou novo no spark / scala. Estou tentando ler alguns dados de uma tabela de seção para um dataframe spark e adicionar uma coluna com base em alguma condição. Aqui está o meu código: val DF = hiveContext.sql("select * from (select * from ...
Spark não funciona com pureconfig
Estou tentando usar pureConfig e configFactory para minha configuração de aplicativo spark. aqui está o meu código: import pureconfig.{loadConfigOrThrow} object Source{ def apply(keyName: String, configArguments: Config): Source = { ...
Apache Spark: obtenha o número de registros por partição
Quero verificar como podemos obter informações sobre cada partição, como o total não. de registros em cada partição no lado do driver quando o trabalho do Spark é enviado com o modo de implantação como um cluster de fios para registrar ...