Resultados da pesquisa a pedido "apache-spark-sql"
A consulta em um Spark DataFrame baseada em CSV é mais rápida que em um baseado no Parquet?
Preciso carregar um arquivo CSV do HDFS usando o Spark noDataFrame. Eu queria saber se há uma melhoria de "desempenho" (velocidade de consulta) de um DataFrame suportado por um arquivo CSV vs um suportado por um arquivo parquet? Normalmente, ...
Funções da janela Spark requer HiveContext?
Eu estou tentando um exemplo de função de janela na faísca deste ...
Spark UDF chamado mais de uma vez por registro quando o DF tiver muitas colunas
Estou usando o Spark 1.6.1 e encontrando um comportamento estranho: estou executando um UDF com algumas computações pesadas (simulações de física) em um dataframe contendo alguns dados de entrada e construindo um resultado - Dataframe contendo ...
Como selecionar a última linha e também como acessar o quadro de dados PySpark por índice?
De um dataframe PySpark SQL como name age city abc 20 A def 30 BComo obter a última linha. (Como por df.limit (1) Eu posso obter a primeira linha do dataframe no novo dataframe). E como posso acessar as linhas do quadro de dados por index.like ...
Sobre como adicionar uma nova coluna a um DataFrame existente com valores aleatórios no Scala
Eu tenho um quadro de dados com um arquivo parquet e tenho que adicionar uma nova coluna com alguns dados aleatórios, mas preciso que os dados aleatórios sejam diferentes. Este é o meu código atual e a versão atual do spark ...
Quadros de dados Spark - redução por chave
Digamos que eu tenho uma estrutura de dados como esta, em que ts é um carimbo de data / hora case class Record(ts: Long, id: Int, value: Int)Dado um grande número desses registros, quero terminar com o registro com o carimbo de data / hora mais ...
Operador Spark <">" SQL
Recentemente, deparei com esse operador: "<=>" em um projeto Scala Spark. Estou tendo problemas para encontrar qualquer documentação. Alguém sabe como funciona, ou conhece alguma documentação? Eu acredito que tem algo a ver com operações de ...
Exceção de valor nulo do conjunto de dados Spark 2
Obtendo este erro nulo no spark Dataset.filter CSV de entrada: name,age,stat abc,22,m xyz,,sCódigo de trabalho: case class Person(name: String, age: Long, stat: String) val peopleDS = spark.read.option("inferSchema","true") ...
Não foi possível gerar UUIDs no Spark SQL
abaixo está o bloco de código e o erro recebido > creating a temporary views sqlcontext.sql("""CREATE TEMPORARY VIEW temp_pay_txn_stage USING org.apache.spark.sql.cassandra OPTIONS ( table "t_pay_txn_stage", keyspace "ks_pay", cluster "Test ...
Como derreter o Spark DataFrame?
Existe um equivalente da função Pandas Melt no Apache Spark no PySpark ou pelo menos no Scala? Eu estava executando um exemplo de conjunto de dados até agora em python e agora quero usar o Spark para todo o conjunto de dados. Desde já, obrigado.