Resultados da pesquisa a pedido "apache-spark-sql"

Como posso converter um RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) para um Dataframeorg.apache.spark.sql.DataFrame. Eu converti um dataframe para rdd usando.rdd. Depois de processá-lo, quero-o novamente no dataframe. Como posso ...

apache-spark scala

1 a resposta

Como usar o valor constante no UDF do Spark SQL (DataFrame)

Eu tenho um quadro de dados que incluitimestamp. Para agregar por hora (minuto, hora ou dia), tentei como: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period = 1 hour }) val df: ...

apache-spark security hive scala

1 a resposta

Qual é a maneira preferida de evitar injeções de SQL no Spark-SQL (no Hive)

Assuma um esquemaRDDrdd com uma tabela registradacustomer. Você deseja filtrar os registros de acordo com uma entrada do usuário. Uma idéia que você pode ter como fazer isso é a seguinte: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...

apache-spark pyspark

6 a resposta

Como excluir colunas no pyspark dataframe

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...

apache-spark jdbc postgresql

6 a resposta

Apache Spark: conexão JDBC não está funcionando

Também fiz essa pergunta anteriormente, mas não obtive resposta (Não é possível conectar-se ao postgres usando jdbc no shell ...

scala jdbc apache-spark

4 a resposta

java.sql.SQLException: nenhum driver adequado encontrado ao carregar o DataFrame no Spark SQL

Estou atingindo um problema muito estranho ao tentar carregar o JDBC DataFrame no Spark SQL. Eu tentei vários clusters Spark - YARN, cluster autônomo e modo pseudo-distribuído no meu laptop. É reproduzível no Spark 1.3.0 e 1.3.1. O problema ...

apache-spark scala

1 a resposta

agregando com uma condição no groupby spark dataframe

Eu tenho um quadro de dados id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 ...

python pyspark apache-spark pivot

6 a resposta

Remodelagem / rotação de dados no Spark RDD e / ou Spark DataFrames

Eu tenho alguns dados no seguinte formato (RDD ou Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...

pivot dataframe scala apache-spark

6 a resposta

Como dinamizar o DataFrame?

Estou começando a usar o Spark DataFrames e preciso poder dinamizar os dados para criar várias colunas de uma coluna com várias linhas. Existe funcionalidade embutida para isso no Scalding e acredito no Pandas em Python, mas não consigo encontrar ...

apache-spark

5 a resposta

Zip com DataFrame-ified

Estou tentando resolver o problema antigo de adicionar um número de sequência a um conjunto de dados. Estou trabalhando com DataFrames e parece não haver DataFrame equivalente aRDD.zipWithIndex. Por outro lado, o seguinte funciona mais ou menos ...

Página 30 do 52

28 293031 32

Resultados da pesquisa a pedido "apache-spark-sql"

Como converter objeto rdd em dataframe no spark

Como usar o valor constante no UDF do Spark SQL (DataFrame)

Qual é a maneira preferida de evitar injeções de SQL no Spark-SQL (no Hive)

Tags populares

Como excluir colunas no pyspark dataframe

Apache Spark: conexão JDBC não está funcionando

java.sql.SQLException: nenhum driver adequado encontrado ao carregar o DataFrame no Spark SQL

agregando com uma condição no groupby spark dataframe

Remodelagem / rotação de dados no Spark RDD e / ou Spark DataFrames

Como dinamizar o DataFrame?

Zip com DataFrame-ified

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares