Resultados de la búsqueda a petición "apache-spark-sql"

4 la respuesta

¿Cómo aplanar una estructura en un marco de datos de Spark?

Tengo un marco de datos con la siguiente estructura: |-- data: struct (nullable = true) | |-- id: long (nullable = true) | |-- keyNote: struct (nullable = true) | | |-- key: string (nullable = true) | | |-- note: string (nullable = true) | |-- ...

1 la respuesta

¿Por qué SparkSession se ejecuta dos veces para una acción?

Recientemente actualizado a Spark 2.0 y veo un comportamiento extraño al intentar crear un conjunto de datos simple a partir de cadenas JSON. Aquí hay un caso de prueba simple: SparkSession spark ...

3 la respuesta

¿Cómo convertir una columna de matrices de cadenas en cadenas?

Tengo una columna, que es de tipoarray < string > en mesas de chispas. Estoy usando SQL para consultar estas tablas de chispa. Quería convertir elarray < string > dentrostring. Cuando se usa la siguiente sintaxis: select cast(rate_plan_code as ...

1 la respuesta

Cómo conectarse al servidor de colmena remoto desde spark

Estoy ejecutando spark localmente y quiero acceder a las tablas de Hive, que se encuentran en el clúster de Hadoop remoto. Puedo acceder a las tablas de la colmena iniciando beeline en SPARK_HOME [ml@master spark-2.0.0]$./bin/beeline Beeline ...

0 la respuesta

Spark 2.0: "Tabla o vista no encontrada" al consultar Hive [cerrado]

Al consultar Hive a través despark-shell 2.0: spark.sql("SELECT * FROM schemaname.tablename")Lanza un error: 16/08/13 09:24:17 INFO execution.SparkSqlParser: Parsing command: SELECT * FROM schemaname.tablename ...

1 la respuesta

Cambio de propiedad anulable en la columna Spark Dataframe

Quiero cambiar la propiedad anulable de una columna en particular en un Spark Dataframe. Si imprimo el esquema del marco de datos actualmente, se ve a continuación.col1: string (nullable = false) col2: string (nullable = true) col3: string ...

1 la respuesta

Obteniendo valores distintos en una columna usando Spark DataFrame

Al usar la versión 1.6.1 de Spark, necesito obtener valores distintos en una columna y luego realizar alguna transformación específica encima. La columna contiene más de 50 millones de registros y puede crecer más. Entiendo que hacer ...

3 la respuesta

Aplicación de UDF en GroupedData en PySpark (con ejemplo de Python en funcionamiento)

Tengo este código de Python que se ejecuta localmente en un marco de datos de pandas: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Me gustaría ejecutar esto en PySpark, pero tengo problemas ...

2 la respuesta

División de la fila en varias filas en spark-shell

He importado datos en el marco de datos de Spark en spark-shell. Los datos se completan como: Col1 | Col2 | Col3 | Col4 A1 | 11 | B2 | a|b;1;0xFFFFFF A1 | 12 | B1 | 2 A2 | 12 | B2 | 0xFFF45BAquí en Col4, los valores son de diferentes tipos y ...

3 la respuesta

Spark sql cómo explotar sin perder valores nulos

Tengo un Dataframe que estoy tratando de aplanar. Como parte del proceso, quiero explotarlo, así que si tengo una columna de matrices, cada valor de la matriz se usará para crear una fila separada. Por ejemplo, id | name | likes ...