Resultados da pesquisa a pedido "apache-spark"

1 a resposta

sombreamento de montagem sbt para criar jar de gordura para executar na faísca

Estou usando o assembly sbt para criar um frasco de gordura que pode funcionar com faísca. Tem dependências emgrpc-netty. A versão do Goiaba no spark é mais antiga que a exigida pelogrpc-netty e eu me deparo com este ...

2 a resposta

Como usar o DataFrame withColumn e não alterar a partição?

Por alguma razão eu tenho que converterRDD paraDataFrame, então faça algo comDataFrame. Minha interface éRDDentão eu tenho que converterDataFrame paraRDD, E quando eu usodf.withcolumn, a partição muda para 1, então eu tenho querepartition ...

1 a resposta

Como usar o UDF para retornar várias colunas?

É possível criar um UDF que retornaria o conjunto de colunas? I.e. tendo um quadro de dados da seguinte maneira: | Feature1 | Feature2 | Feature 3 | | 1.3 | 3.4 | 4.5 |Agora eu gostaria de extrair um novo recurso, que pode ser descrito como um ...

3 a resposta

PySpark, principal para DataFrame

O que eu quero fazer é um DataFrame, pegue os n elementos principais de acordo com alguma coluna especificada. O topo (self, num) na API RDD é exatamente o que eu quero. Gostaria de saber se existe API equivalente no mundo DataFrame? Minha ...

1 a resposta

Criando / acessando dataframe dentro da transformação de outro dataframe

Estou atualizando algum código existente para usar o Spark. Eu tenho vários quadros de dados que contêm conjuntos de dados diferentes. Ao transformar meu quadro de dados principal (ou meu conjunto de dados principal), preciso usar dados de outros ...

3 a resposta

Executando uma contagem de palavras Spark no IntelliJ

Passei horas analisando vídeos e tutoriais do You Tube tentando entender como executo um programa de contagem de palavras para Spark, no Scala, e transformá-lo em um arquivo jar. Estou ficando totalmente confuso agora. Eu tenho o Hello World em ...

1 a resposta

Por que o RDD.foreach falha com "SparkException: este RDD não possui um SparkContext"?

Eu tenho um conjunto de dados (como umRDD) que divido em 4 RDDs usando diferentesfilter operadores. val RSet = datasetRdd. flatMap(x => RSetForAttr(x, alLevel, hieDict)). map(x => (x, 1)). reduceByKey((x, y) => x + y) val Rp:RDD[(String, Int)] = ...

1 a resposta

Problemas ao adicionar uma nova coluna a um quadro de dados - spark / scala

Eu sou novo no spark / scala. Estou tentando ler alguns dados de uma tabela de seção para um dataframe spark e adicionar uma coluna com base em alguma condição. Aqui está o meu código: val DF = hiveContext.sql("select * from (select * from ...

1 a resposta

Spark não funciona com pureconfig

Estou tentando usar pureConfig e configFactory para minha configuração de aplicativo spark. aqui está o meu código: import pureconfig.{loadConfigOrThrow} object Source{ def apply(keyName: String, configArguments: Config): Source = { ...

4 a resposta

Apache Spark: obtenha o número de registros por partição

Quero verificar como podemos obter informações sobre cada partição, como o total não. de registros em cada partição no lado do driver quando o trabalho do Spark é enviado com o modo de implantação como um cluster de fios para registrar ...