Resultados da pesquisa a pedido "apache-spark-sql"

10 a resposta

Como converter objeto rdd em dataframe no spark

Como posso converter um RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) para um Dataframeorg.apache.spark.sql.DataFrame. Eu converti um dataframe para rdd usando.rdd. Depois de processá-lo, quero-o novamente no dataframe. Como posso ...

1 a resposta

Como usar o valor constante no UDF do Spark SQL (DataFrame)

Eu tenho um quadro de dados que incluitimestamp. Para agregar por hora (minuto, hora ou dia), tentei como: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period = 1 hour }) val df: ...

1 a resposta

Qual é a maneira preferida de evitar injeções de SQL no Spark-SQL (no Hive)

Assuma um esquemaRDDrdd com uma tabela registradacustomer. Você deseja filtrar os registros de acordo com uma entrada do usuário. Uma idéia que você pode ter como fazer isso é a seguinte: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...

6 a resposta

Como excluir colunas no pyspark dataframe

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...

6 a resposta

Apache Spark: conexão JDBC não está funcionando

Também fiz essa pergunta anteriormente, mas não obtive resposta (Não é possível conectar-se ao postgres usando jdbc no shell ...

4 a resposta

java.sql.SQLException: nenhum driver adequado encontrado ao carregar o DataFrame no Spark SQL

Estou atingindo um problema muito estranho ao tentar carregar o JDBC DataFrame no Spark SQL. Eu tentei vários clusters Spark - YARN, cluster autônomo e modo pseudo-distribuído no meu laptop. É reproduzível no Spark 1.3.0 e 1.3.1. O problema ...

1 a resposta

agregando com uma condição no groupby spark dataframe

Eu tenho um quadro de dados id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 ...

6 a resposta

Remodelagem / rotação de dados no Spark RDD e / ou Spark DataFrames

Eu tenho alguns dados no seguinte formato (RDD ou Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...

6 a resposta

Como dinamizar o DataFrame?

Estou começando a usar o Spark DataFrames e preciso poder dinamizar os dados para criar várias colunas de uma coluna com várias linhas. Existe funcionalidade embutida para isso no Scalding e acredito no Pandas em Python, mas não consigo encontrar ...

5 a resposta

Zip com DataFrame-ified

Estou tentando resolver o problema antigo de adicionar um número de sequência a um conjunto de dados. Estou trabalhando com DataFrames e parece não haver DataFrame equivalente aRDD.zipWithIndex. Por outro lado, o seguinte funciona mais ou menos ...