Resultados da pesquisa a pedido "spark-dataframe"
Como salvar / inserir cada DStream em uma tabela permanente
Estou enfrentando um problema com o "Spark Streaming" sobre a inserção do Dstream de saída em umpermanente Tabela SQL. Gostaria de inserir todos os DStream de saída (provenientes de um único lote que desencadeia processos) em uma tabela ...
Scala: Spark SQL to_date (unix_timestamp) retornando NULL
Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Estou carregando um CSV bruto em um DataFrame. No csv, embora a coluna seja compatível com o formato de data, eles são gravados como 20161025 em vez de 25/10/2016. O parâmetrodate_format ...
Qual é a diferença entre funções sort e orderBy no Spark
Qual é a diferença entre sort e orderBy spark DataFrame? scala> zips.printSchema root |-- _id: string (nullable = true) |-- city: string (nullable = true) |-- loc: array (nullable = true) | |-- element: double (containsNull = true) |-- pop: long ...
Como executar operações matemáticas com duas colunas no dataframe usando o pyspark
Eu tenho dataframe com três colunas "x", "y" e "z" x y z bn 12452 221 mb 14521 330 pl 12563 160 lo 22516 142Eu preciso criar uma outra coluna que é derivada por esta fórmula (m = z / y+z)Portanto, os novos quadros de dados devem ter a seguinte ...
Quais são os possíveis motivos para receber TimeoutException: futuros atingiram o tempo limite após [n segundos] ao trabalhar com o Spark [duplicado]
Esta pergunta já tem uma resposta aqui: Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 ...
Spark DataFrame: groupBy após orderBy mantém essa ordem?
Eu tenho um quadro de dados Spark 2.0example com a seguinte estrutura: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc.Ele contém 24 entradas para cada identificação (uma para cada hora do dia) e é ...
Como gravar no hstore do PostgreSQL usando o Spark Dataset
Estou tentando gravar um Spark Dataset em uma tabela existente do postgresql (não é possível alterar os metadados da tabela, como os tipos de coluna). Uma das colunas desta tabela é do ...
Spark RDD para python DataFrame
Estou tentando converter o Spark RDD em um DataFrame. Eu vi a documentação e o exemplo em que o esquema é passado parasqlContext.CreateDataFrame(rdd,schema) função. Mas eu tenho 38 colunas ou campos e isso aumentará ainda mais. Se eu ...
Aplicar uma função a uma única coluna de um csv no Spark
Usando o Spark, estou lendo um csv e quero aplicar uma função a uma coluna no csv. Eu tenho algum código que funciona, mas é muito hacky. Qual é a maneira correta de fazer isso? Meu código SparkContext().addPyFile("myfile.py") spark = ...
A consulta em um Spark DataFrame baseada em CSV é mais rápida que em um baseado no Parquet?
Preciso carregar um arquivo CSV do HDFS usando o Spark noDataFrame. Eu queria saber se há uma melhoria de "desempenho" (velocidade de consulta) de um DataFrame suportado por um arquivo CSV vs um suportado por um arquivo parquet? Normalmente, ...