Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Como posso melhorar a parte de redução de tecla do meu aplicativo spark?

Eu tenho 64 núcleos de faísca. Tenho mais de 80 milhões de linhas de dados que totalizam 4,2 GB no meu cluster cassandra. Agora preciso de 82 segundos para processar esses dados. Eu quero isso reduzido para 8 segundos. Alguma idéia sobre isso? ...

2 a resposta

Usando futuros no Spark

Um trabalho do Spark cria um serviço da Web remoto para cada elemento em um RDD. Uma implementação simples pode ser algo como isto: def webServiceCall(url: String) = scala.io.Source.fromURL(url).mkString rdd2 = rdd1.map(x => ...

3 a resposta

Convertendo o dataframe do Pandas em erro do Spark dataframe

Estou tentando converter o Pandas DF no Spark one. Cabeça ...

1 a resposta

Coluna Pivot String no Pyspark Dataframe

Eu tenho um quadro de dados simples como este: rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", 3213,"201601", "PORT"), (2,"C", ...

3 a resposta

Junção de hash de transmissão do Spark SQL

Estou tentando executar uma junção de hash de transmissão em quadros de dados usando o SparkSQL conforme documentado ...

1 a resposta

consulta de atualização no Spark SQL

Gostaria de saber se posso usar a consulta de atualização no sparksql da seguinte maneira: sqlContext.sql("update users set name = '*' where name is null")Eu recebi o erro: org.apache.spark.sql.AnalysisException: Unsupported language features ...

5 a resposta

Como importar vários arquivos CSV em uma única carga?

Considere que eu tenho um esquema definido para carregar 10 arquivos csv em uma pasta. Existe uma maneira de carregar tabelas automaticamente usando o Spark SQL. Sei que isso pode ser realizado usando um quadro de dados individual para cada ...

2 a resposta

Como calcular o percentil da coluna em um DataFrame no spark?

Estou tentando calcular o percentil de uma coluna em um DataFrame? Não consigo encontrar nenhuma função percentil_prox nas funções de agregação do Spark. Por ex. no Hive, temos percentil_aprox e podemos usá-lo da seguinte ...

1 a resposta

Spark Dataframe groupBy com sequência como argumentos de chaves [duplicado]

Esta pergunta já tem uma resposta aqui: Várias operações agregadas na mesma coluna de um dataframe spark [/questions/34954771/multiple-aggregate-operations-on-the-same-column-of-a-spark-dataframe] 2 respostasEu tenho um spark DataFrame e quero ...

4 a resposta

Comparando colunas no Pyspark

Estou trabalhando em um PySpark DataFrame com n colunas. Eu tenho um conjunto de m colunas (m <n) e minha tarefa é escolher a coluna com valores máximos. Por exemplo: Entrada: PySpark DataFrame contendo col_1 = [1,2,3], col_2 = [2,1,4], col_3 ...