Resultados da pesquisa a pedido "apache-spark-sql"

Eu tenho um fluxo de JSONs com a seguinte estrutura que é convertida em dataframe { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }O dataframe show functions resulta na seguinte ...

spark-dataframe apache-spark join scala

0 a resposta

OUTER JOIN em 2 DATA FRAMES: Spark Scala SqlContext

Estou recebendo erro ao fazer junções externas em 2 quadros de dados. Estou tentando obter o percentil. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.jsonFile("temp.txt") val res = ...

pyspark arrays apache-spark user-defined-functions

2 a resposta

Erro Spark: zero argumento esperado para a construção de ClassDict (para numpy.core.multiarray._reconstruct)

Eu tenho um dataframe no Spark no qual uma das colunas contém uma matriz. Agora, escrevi um UDF separado que converte a matriz em outra matriz com valores distintos apenas nela. Veja o exemplo abaixo: Ex:[24,23,27,23]deve ser convertido para[24, ...

apache-spark g1gc garbage-collection scala

1 a resposta

Spark: operação aleatória levando a uma longa pausa no GC

Estou correndoSpark 2 e estou tentando embaralhar cerca de 5 terabytes de json. Estou tendo uma pausa muito longa na coleta de lixo durante o embaralhamento de umDataset: val operations = ...

apache-spark

2 a resposta

O que é uma maneira otimizada de juntar tabelas grandes no Spark SQL

Preciso ingressar em tabelas usando o Spark SQL ou a API Dataframe. Precisa saber qual seria a maneira otimizada de alcançá-lo. O cenário é: Todos os dados estão presentes no Hive no formato ORC (Base Dataframe e arquivos de referência).Preciso ...

python pyspark apache-spark

4 a resposta

Renomear coluna dinâmica e agregada no PySpark Dataframe

Com um quadro de dados da seguinte maneira: from pyspark.sql.functions import avg, first rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), ...

java apache-spark

1 a resposta

Por que o SparkSession executa duas vezes para uma ação?

Atualizei recentemente para o Spark 2.0 e estou vendo um comportamento estranho ao tentar criar um conjunto de dados simples a partir de seqüências de caracteres JSON. Aqui está um caso de teste simples: SparkSession spark ...

apache-spark

3 a resposta

Como converter coluna de matrizes de strings em strings?

Eu tenho uma coluna, que é do tipoarray < string > em mesas de faísca. Estou usando o SQL para consultar essas tabelas spark. Eu queria converter oarray < string > para dentrostring. Quando usada a sintaxe abaixo: select cast(rate_plan_code as ...

python pyspark apache-spark hbase

1 a resposta

Como conectar o HBase e o Spark usando Python?

Eu tenho uma tarefa paralela embaraçosamente para a qual eu uso o Spark para distribuir os cálculos. Esses cálculos estão em Python, e eu uso o PySpark para ler e pré-processar os dados. Os dados de entrada para minha tarefa são armazenados no ...

hadoop apache-spark spark-dataframe scala

3 a resposta

Leia de uma tabela de colméia e escreva de volta usando spark sql

Estou lendo uma tabela do Hive usando o Spark SQL e atribuindo-a a um scala val val x = sqlContext.sql("select * from some_table")Então, estou fazendo algum processamento com o dataframe x e finalmente criando um dataframe y, que tem o esquema ...

Página 4 do 52

2 345 6

Resultados da pesquisa a pedido "apache-spark-sql"

Os quadros de dados Spark convertem JSON aninhado em colunas separadas

OUTER JOIN em 2 DATA FRAMES: Spark Scala SqlContext

Erro Spark: zero argumento esperado para a construção de ClassDict (para numpy.core.multiarray._reconstruct)

Tags populares

Spark: operação aleatória levando a uma longa pausa no GC

O que é uma maneira otimizada de juntar tabelas grandes no Spark SQL

Renomear coluna dinâmica e agregada no PySpark Dataframe

Por que o SparkSession executa duas vezes para uma ação?

Como converter coluna de matrizes de strings em strings?

Como conectar o HBase e o Spark usando Python?

Leia de uma tabela de colméia e escreva de volta usando spark sql

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares