Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Como adicionar um arquivo de configuração typesafe localizado no HDFS para envio por spark (modo de cluster)?

Eu tenho um aplicativo Spark (Spark 1.5.2) que transmite dados do Kafka para o HDFS. Meu aplicativo contém dois arquivos de configuração Typesafe para configurar certas coisas, como o tópico Kafka etc. Agora eu quero executar meu aplicativo com ...

1 a resposta

Use collect_list e collect_set no Spark SQL

De acordo comdocs [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$] , acollect_set ecollect_list funções devem estar disponíveis no Spark SQL. No entanto, não consigo fazê-lo funcionar. Estou executando o ...

1 a resposta

Comportamento aleatório do particionador no RDD associado

Estou tentando ingressar em dois conjuntos de dados. Um do tipo (Id, salesRecord) outro (Id, Name). O primeiro conjunto de dados é particionado pelo HashPartitioner e o segundo é particionado pelo Custom Partitioner. Quando associo esses RDDs por ...

1 a resposta

Verificando se um elemento RDD está em outro usando a função map

Eu sou novo no Spark e estava pensando em fechamentos. Eu tenho dois RDDs, um contendo uma lista de IDs e um valor e o outro contendo uma lista de IDs selecionados. Usando um mapa, quero aumentar o valor do elemento, se o outro RDD contiver ...

3 a resposta

Lidando com vírgulas dentro de um campo em um arquivo csv usando o pyspark

Eu tenho um arquivo de dados csv contendo vírgulas dentro de um valor de coluna. Por exemplo, value_1,value_2,value_3 AAA_A,BBB,B,CCC_CAqui, os valores são "AAA_A", "BBB, B", "CCC_C". Mas, ao tentar dividir a linha por vírgula, ele fornece ...

2 a resposta

Como armazenar em cache um quadro de dados Spark e referenciá-lo em outro script

É possível armazenar em cache um quadro de dados e referenciá-lo (consulta) em outro script? ... Meu objetivo é o seguinte: No script 1, crie um quadro de dados (df)Execute o script 1 e o cache dfNo script 2, consultar dados em df

4 a resposta

SPARK SQL - atualize a tabela MySql usando DataFrames e JDBC

Estou tentando inserir e atualizar alguns dados no MySql usando o Spark SQL DataFrames e a conexão JDBC. Consegui inserir novos dados usando o SaveMode.Append. Existe uma maneira de atualizar os dados já existentes na tabela MySql do Spark ...

5 a resposta

Spark: verifique a interface do usuário do cluster para garantir que os trabalhadores estejam registrados

Eu tenho um programa simples no Spark: /* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]) { val conf = ...

1 a resposta

Como melhorar o resultado da minha recomendação? Estou usando o Spark ALS implícito

Primeiro, tenho um histórico de uso do aplicativo do usuário. Por exemplo: user1, app1, 3 (horário de lançamento) user2, app2, 2 (horário de lançamento) user3, app1, 1 (horário de lançamento) Eu tenho basicamente duas demandas: Recomende um ...

6 a resposta

Como adiciono uma coluna persistente de IDs de linha ao Spark DataFrame?

Essa pergunta não é nova, mas estou encontrando um comportamento surpreendente no Spark. Eu preciso adicionar uma coluna de IDs de linha a um DataFrame. Eu usei o método DataFrame monotonically_increasing_id () e ele me fornece uma coluna ...