Resultados da pesquisa a pedido "apache-spark-sql"
Como converter objeto rdd em dataframe no spark
Como posso converter um RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) para um Dataframeorg.apache.spark.sql.DataFrame. Eu converti um dataframe para rdd usando.rdd. Depois de processá-lo, quero-o novamente no dataframe. Como posso ...
Como usar o valor constante no UDF do Spark SQL (DataFrame)
Eu tenho um quadro de dados que incluitimestamp. Para agregar por hora (minuto, hora ou dia), tentei como: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period = 1 hour }) val df: ...
Qual é a maneira preferida de evitar injeções de SQL no Spark-SQL (no Hive)
Assuma um esquemaRDDrdd com uma tabela registradacustomer. Você deseja filtrar os registros de acordo com uma entrada do usuário. Uma idéia que você pode ter como fazer isso é a seguinte: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...
Como excluir colunas no pyspark dataframe
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...
Apache Spark: conexão JDBC não está funcionando
Também fiz essa pergunta anteriormente, mas não obtive resposta (Não é possível conectar-se ao postgres usando jdbc no shell ...
java.sql.SQLException: nenhum driver adequado encontrado ao carregar o DataFrame no Spark SQL
Estou atingindo um problema muito estranho ao tentar carregar o JDBC DataFrame no Spark SQL. Eu tentei vários clusters Spark - YARN, cluster autônomo e modo pseudo-distribuído no meu laptop. É reproduzível no Spark 1.3.0 e 1.3.1. O problema ...
agregando com uma condição no groupby spark dataframe
Eu tenho um quadro de dados id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 ...
Remodelagem / rotação de dados no Spark RDD e / ou Spark DataFrames
Eu tenho alguns dados no seguinte formato (RDD ou Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...
Como dinamizar o DataFrame?
Estou começando a usar o Spark DataFrames e preciso poder dinamizar os dados para criar várias colunas de uma coluna com várias linhas. Existe funcionalidade embutida para isso no Scalding e acredito no Pandas em Python, mas não consigo encontrar ...
Zip com DataFrame-ified
Estou tentando resolver o problema antigo de adicionar um número de sequência a um conjunto de dados. Estou trabalhando com DataFrames e parece não haver DataFrame equivalente aRDD.zipWithIndex. Por outro lado, o seguinte funciona mais ou menos ...