Resultados da pesquisa a pedido "apache-spark-sql"

Preciso carregar um arquivo CSV do HDFS usando o Spark noDataFrame. Eu queria saber se há uma melhoria de "desempenho" (velocidade de consulta) de um DataFrame suportado por um arquivo CSV vs um suportado por um arquivo parquet? Normalmente, ...

window-functions spark-dataframe apache-spark

1 a resposta

Funções da janela Spark requer HiveContext?

Eu estou tentando um exemplo de função de janela na faísca deste ...

apache-spark scala

2 a resposta

Spark UDF chamado mais de uma vez por registro quando o DF tiver muitas colunas

Estou usando o Spark 1.6.1 e encontrando um comportamento estranho: estou executando um UDF com algumas computações pesadas (simulações de física) em um dataframe contendo alguns dados de entrada e construindo um resultado - Dataframe contendo ...

pyspark python pyspark-sql apache-spark

4 a resposta

Como selecionar a última linha e também como acessar o quadro de dados PySpark por índice?

De um dataframe PySpark SQL como name age city abc 20 A def 30 BComo obter a última linha. (Como por df.limit (1) Eu posso obter a primeira linha do dataframe no novo dataframe). E como posso acessar as linhas do quadro de dados por index.like ...

apache-spark scala user-defined-functions random

2 a resposta

Sobre como adicionar uma nova coluna a um DataFrame existente com valores aleatórios no Scala

Eu tenho um quadro de dados com um arquivo parquet e tenho que adicionar uma nova coluna com alguns dados aleatórios, mas preciso que os dados aleatórios sejam diferentes. Este é o meu código atual e a versão atual do spark ...

apache-spark-dataset apache-spark scala

2 a resposta

Quadros de dados Spark - redução por chave

Digamos que eu tenho uma estrutura de dados como esta, em que ts é um carimbo de data / hora case class Record(ts: Long, id: Int, value: Int)Dado um grande número desses registros, quero terminar com o registro com o carimbo de data / hora mais ...

apache-spark

1 a resposta

Operador Spark <">" SQL

Recentemente, deparei com esse operador: "<=>" em um projeto Scala Spark. Estou tendo problemas para encontrar qualquer documentação. Alguém sabe como funciona, ou conhece alguma documentação? Eu acredito que tem algo a ver com operações de ...

apache-spark-dataset apache-spark scala

1 a resposta

Exceção de valor nulo do conjunto de dados Spark 2

Obtendo este erro nulo no spark Dataset.filter CSV de entrada: name,age,stat abc,22,m xyz,,sCódigo de trabalho: case class Person(name: String, age: Long, stat: String) val peopleDS = spark.read.option("inferSchema","true") ...

cassandra spark-cassandra-connector apache-spark

1 a resposta

Não foi possível gerar UUIDs no Spark SQL

abaixo está o bloco de código e o erro recebido > creating a temporary views sqlcontext.sql("""CREATE TEMPORARY VIEW temp_pay_txn_stage USING org.apache.spark.sql.cassandra OPTIONS ( table "t_pay_txn_stage", keyspace "ks_pay", cluster "Test ...

melt pandas apache-spark pyspark

4 a resposta

Como derreter o Spark DataFrame?

Existe um equivalente da função Pandas Melt no Apache Spark no PySpark ou pelo menos no Scala? Eu estava executando um exemplo de conjunto de dados até agora em python e agora quero usar o Spark para todo o conjunto de dados. Desde já, obrigado.

Página 13 do 52

11 121314 15

Resultados da pesquisa a pedido "apache-spark-sql"

A consulta em um Spark DataFrame baseada em CSV é mais rápida que em um baseado no Parquet?

Funções da janela Spark requer HiveContext?

Spark UDF chamado mais de uma vez por registro quando o DF tiver muitas colunas

Tags populares

Como selecionar a última linha e também como acessar o quadro de dados PySpark por índice?

Sobre como adicionar uma nova coluna a um DataFrame existente com valores aleatórios no Scala

Quadros de dados Spark - redução por chave

Operador Spark <">" SQL

Exceção de valor nulo do conjunto de dados Spark 2

Não foi possível gerar UUIDs no Spark SQL

Como derreter o Spark DataFrame?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares