Resultados da pesquisa a pedido "apache-spark"

Como adicionar um arquivo de configuração typesafe localizado no HDFS para envio por spark (modo de cluster)?

Eu tenho um aplicativo Spark (Spark 1.5.2) que transmite dados do Kafka para o HDFS. Meu aplicativo contém dois arquivos de configuração Typesafe para configurar certas coisas, como o tópico Kafka etc. Agora eu quero executar meu aplicativo com ...

apache-spark-sql hive

1 a resposta

Use collect_list e collect_set no Spark SQL

De acordo comdocs [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$] , acollect_set ecollect_list funções devem estar disponíveis no Spark SQL. No entanto, não consigo fazê-lo funcionar. Estou executando o ...

scala

1 a resposta

Comportamento aleatório do particionador no RDD associado

Estou tentando ingressar em dois conjuntos de dados. Um do tipo (Id, salesRecord) outro (Id, Name). O primeiro conjunto de dados é particionado pelo HashPartitioner e o segundo é particionado pelo Custom Partitioner. Quando associo esses RDDs por ...

closures scala

1 a resposta

Verificando se um elemento RDD está em outro usando a função map

Eu sou novo no Spark e estava pensando em fechamentos. Eu tenho dois RDDs, um contendo uma lista de IDs e um valor e o outro contendo uma lista de IDs selecionados. Usando um mapa, quero aumentar o valor do elemento, se o outro RDD contiver ...

csv pyspark

3 a resposta

Lidando com vírgulas dentro de um campo em um arquivo csv usando o pyspark

Eu tenho um arquivo de dados csv contendo vírgulas dentro de um valor de coluna. Por exemplo, value_1,value_2,value_3 AAA_A,BBB,B,CCC_CAqui, os valores são "AAA_A", "BBB, B", "CCC_C". Mas, ao tentar dividir a linha por vírgula, ele fornece ...

pyspark-sql apache-spark-sql pyspark

2 a resposta

Como armazenar em cache um quadro de dados Spark e referenciá-lo em outro script

É possível armazenar em cache um quadro de dados e referenciá-lo (consulta) em outro script? ... Meu objetivo é o seguinte: No script 1, crie um quadro de dados (df)Execute o script 1 e o cache dfNo script 2, consultar dados em df

apache-spark-sql jdbc

4 a resposta

SPARK SQL - atualize a tabela MySql usando DataFrames e JDBC

Estou tentando inserir e atualizar alguns dados no MySql usando o Spark SQL DataFrames e a conexão JDBC. Consegui inserir novos dados usando o SaveMode.Append. Existe uma maneira de atualizar os dados já existentes na tabela MySql do Spark ...

cloudera scala cloudera-m,anager hadoop

5 a resposta

Spark: verifique a interface do usuário do cluster para garantir que os trabalhadores estejam registrados

Eu tenho um programa simples no Spark: /* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]) { val conf = ...

recommendation-engine apache-spark-mllib

1 a resposta

Como melhorar o resultado da minha recomendação? Estou usando o Spark ALS implícito

Primeiro, tenho um histórico de uso do aplicativo do usuário. Por exemplo: user1, app1, 3 (horário de lançamento) user2, app2, 2 (horário de lançamento) user3, app1, 1 (horário de lançamento) Eu tenho basicamente duas demandas: Recomende um ...

apache-spark-sql dataframe

6 a resposta

Como adiciono uma coluna persistente de IDs de linha ao Spark DataFrame?

Essa pergunta não é nova, mas estou encontrando um comportamento surpreendente no Spark. Eu preciso adicionar uma coluna de IDs de linha a um DataFrame. Eu usei o método DataFrame monotonically_increasing_id () e ele me fornece uma coluna ...

Página 150 do 167

148 149150151 152

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares