Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

A consulta em um Spark DataFrame baseada em CSV é mais rápida que em um baseado no Parquet?

Preciso carregar um arquivo CSV do HDFS usando o Spark noDataFrame. Eu queria saber se há uma melhoria de "desempenho" (velocidade de consulta) de um DataFrame suportado por um arquivo CSV vs um suportado por um arquivo parquet? Normalmente, ...

1 a resposta

Funções da janela Spark requer HiveContext?

Eu estou tentando um exemplo de função de janela na faísca deste ...

2 a resposta

Spark UDF chamado mais de uma vez por registro quando o DF tiver muitas colunas

Estou usando o Spark 1.6.1 e encontrando um comportamento estranho: estou executando um UDF com algumas computações pesadas (simulações de física) em um dataframe contendo alguns dados de entrada e construindo um resultado - Dataframe contendo ...

4 a resposta

Como selecionar a última linha e também como acessar o quadro de dados PySpark por índice?

De um dataframe PySpark SQL como name age city abc 20 A def 30 BComo obter a última linha. (Como por df.limit (1) Eu posso obter a primeira linha do dataframe no novo dataframe). E como posso acessar as linhas do quadro de dados por index.like ...

2 a resposta

Sobre como adicionar uma nova coluna a um DataFrame existente com valores aleatórios no Scala

Eu tenho um quadro de dados com um arquivo parquet e tenho que adicionar uma nova coluna com alguns dados aleatórios, mas preciso que os dados aleatórios sejam diferentes. Este é o meu código atual e a versão atual do spark ...

2 a resposta

Quadros de dados Spark - redução por chave

Digamos que eu tenho uma estrutura de dados como esta, em que ts é um carimbo de data / hora case class Record(ts: Long, id: Int, value: Int)Dado um grande número desses registros, quero terminar com o registro com o carimbo de data / hora mais ...

1 a resposta

Operador Spark <">" SQL

Recentemente, deparei com esse operador: "<=>" em um projeto Scala Spark. Estou tendo problemas para encontrar qualquer documentação. Alguém sabe como funciona, ou conhece alguma documentação? Eu acredito que tem algo a ver com operações de ...

1 a resposta

Exceção de valor nulo do conjunto de dados Spark 2

Obtendo este erro nulo no spark Dataset.filter CSV de entrada: name,age,stat abc,22,m xyz,,sCódigo de trabalho: case class Person(name: String, age: Long, stat: String) val peopleDS = spark.read.option("inferSchema","true") ...

1 a resposta

Não foi possível gerar UUIDs no Spark SQL

abaixo está o bloco de código e o erro recebido > creating a temporary views sqlcontext.sql("""CREATE TEMPORARY VIEW temp_pay_txn_stage USING org.apache.spark.sql.cassandra OPTIONS ( table "t_pay_txn_stage", keyspace "ks_pay", cluster "Test ...

4 a resposta

Como derreter o Spark DataFrame?

Existe um equivalente da função Pandas Melt no Apache Spark no PySpark ou pelo menos no Scala? Eu estava executando um exemplo de conjunto de dados até agora em python e agora quero usar o Spark para todo o conjunto de dados. Desde já, obrigado.