Resultados da pesquisa a pedido "apache-spark"
Como adicionar um arquivo de configuração typesafe localizado no HDFS para envio por spark (modo de cluster)?
Eu tenho um aplicativo Spark (Spark 1.5.2) que transmite dados do Kafka para o HDFS. Meu aplicativo contém dois arquivos de configuração Typesafe para configurar certas coisas, como o tópico Kafka etc. Agora eu quero executar meu aplicativo com ...
Use collect_list e collect_set no Spark SQL
De acordo comdocs [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$] , acollect_set ecollect_list funções devem estar disponíveis no Spark SQL. No entanto, não consigo fazê-lo funcionar. Estou executando o ...
Comportamento aleatório do particionador no RDD associado
Estou tentando ingressar em dois conjuntos de dados. Um do tipo (Id, salesRecord) outro (Id, Name). O primeiro conjunto de dados é particionado pelo HashPartitioner e o segundo é particionado pelo Custom Partitioner. Quando associo esses RDDs por ...
Verificando se um elemento RDD está em outro usando a função map
Eu sou novo no Spark e estava pensando em fechamentos. Eu tenho dois RDDs, um contendo uma lista de IDs e um valor e o outro contendo uma lista de IDs selecionados. Usando um mapa, quero aumentar o valor do elemento, se o outro RDD contiver ...
Lidando com vírgulas dentro de um campo em um arquivo csv usando o pyspark
Eu tenho um arquivo de dados csv contendo vírgulas dentro de um valor de coluna. Por exemplo, value_1,value_2,value_3 AAA_A,BBB,B,CCC_CAqui, os valores são "AAA_A", "BBB, B", "CCC_C". Mas, ao tentar dividir a linha por vírgula, ele fornece ...
Como armazenar em cache um quadro de dados Spark e referenciá-lo em outro script
É possível armazenar em cache um quadro de dados e referenciá-lo (consulta) em outro script? ... Meu objetivo é o seguinte: No script 1, crie um quadro de dados (df)Execute o script 1 e o cache dfNo script 2, consultar dados em df
SPARK SQL - atualize a tabela MySql usando DataFrames e JDBC
Estou tentando inserir e atualizar alguns dados no MySql usando o Spark SQL DataFrames e a conexão JDBC. Consegui inserir novos dados usando o SaveMode.Append. Existe uma maneira de atualizar os dados já existentes na tabela MySql do Spark ...
Spark: verifique a interface do usuário do cluster para garantir que os trabalhadores estejam registrados
Eu tenho um programa simples no Spark: /* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]) { val conf = ...
Como melhorar o resultado da minha recomendação? Estou usando o Spark ALS implícito
Primeiro, tenho um histórico de uso do aplicativo do usuário. Por exemplo: user1, app1, 3 (horário de lançamento) user2, app2, 2 (horário de lançamento) user3, app1, 1 (horário de lançamento) Eu tenho basicamente duas demandas: Recomende um ...
Como adiciono uma coluna persistente de IDs de linha ao Spark DataFrame?
Essa pergunta não é nova, mas estou encontrando um comportamento surpreendente no Spark. Eu preciso adicionar uma coluna de IDs de linha a um DataFrame. Eu usei o método DataFrame monotonically_increasing_id () e ele me fornece uma coluna ...