Resultados da pesquisa a pedido "spark-dataframe"

2 a resposta

Como salvar / inserir cada DStream em uma tabela permanente

Estou enfrentando um problema com o "Spark Streaming" sobre a inserção do Dstream de saída em umpermanente Tabela SQL. Gostaria de inserir todos os DStream de saída (provenientes de um único lote que desencadeia processos) em uma tabela ...

1 a resposta

Scala: Spark SQL to_date (unix_timestamp) retornando NULL

Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Estou carregando um CSV bruto em um DataFrame. No csv, embora a coluna seja compatível com o formato de data, eles são gravados como 20161025 em vez de 25/10/2016. O parâmetrodate_format ...

1 a resposta

Qual é a diferença entre funções sort e orderBy no Spark

Qual é a diferença entre sort e orderBy spark DataFrame? scala> zips.printSchema root |-- _id: string (nullable = true) |-- city: string (nullable = true) |-- loc: array (nullable = true) | |-- element: double (containsNull = true) |-- pop: long ...

1 a resposta

Como executar operações matemáticas com duas colunas no dataframe usando o pyspark

Eu tenho dataframe com três colunas "x", "y" e "z" x y z bn 12452 221 mb 14521 330 pl 12563 160 lo 22516 142Eu preciso criar uma outra coluna que é derivada por esta fórmula (m = z / y+z)Portanto, os novos quadros de dados devem ter a seguinte ...

4 a resposta

Quais são os possíveis motivos para receber TimeoutException: futuros atingiram o tempo limite após [n segundos] ao trabalhar com o Spark [duplicado]

Esta pergunta já tem uma resposta aqui: Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 ...

5 a resposta

Spark DataFrame: groupBy após orderBy mantém essa ordem?

Eu tenho um quadro de dados Spark 2.0example com a seguinte estrutura: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc.Ele contém 24 entradas para cada identificação (uma para cada hora do dia) e é ...

2 a resposta

Como gravar no hstore do PostgreSQL usando o Spark Dataset

Estou tentando gravar um Spark Dataset em uma tabela existente do postgresql (não é possível alterar os metadados da tabela, como os tipos de coluna). Uma das colunas desta tabela é do ...

2 a resposta

Spark RDD para python DataFrame

Estou tentando converter o Spark RDD em um DataFrame. Eu vi a documentação e o exemplo em que o esquema é passado parasqlContext.CreateDataFrame(rdd,schema) função. Mas eu tenho 38 colunas ou campos e isso aumentará ainda mais. Se eu ...

1 a resposta

Aplicar uma função a uma única coluna de um csv no Spark

Usando o Spark, estou lendo um csv e quero aplicar uma função a uma coluna no csv. Eu tenho algum código que funciona, mas é muito hacky. Qual é a maneira correta de fazer isso? Meu código SparkContext().addPyFile("myfile.py") spark = ...

1 a resposta

A consulta em um Spark DataFrame baseada em CSV é mais rápida que em um baseado no Parquet?

Preciso carregar um arquivo CSV do HDFS usando o Spark noDataFrame. Eu queria saber se há uma melhoria de "desempenho" (velocidade de consulta) de um DataFrame suportado por um arquivo CSV vs um suportado por um arquivo parquet? Normalmente, ...