Resultados de la búsqueda a petición "apache-spark-sql"

3 la respuesta

Cómo usar la palabra clave IZQUIERDA y DERECHA en SPARK SQL

Soy nuevo en provocar SQL, En MS SQL, tenemos la palabra clave IZQUIERDA,LEFT(Columnname,1) in('D','A') then 1 else 0. Cómo implementar lo mismo en SPARK SQL. Amablemente guiame

3 la respuesta

Los marcos de datos de Spark convierten JSON anidado en columnas separadas

Tengo una secuencia de JSON con la siguiente estructura que se convierte en marco de datos { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }El marco de datos muestra resultados de funciones en la siguiente ...

1 la respuesta

Spark: ¿SELECCIONAR DÓNDE o filtrar?

¿Cuál es la diferencia entre seleccionar con una cláusula where y filtrar en Spark? ¿Hay algún caso de uso en el que uno sea más apropiado que el otro? Cuando uso DataFrame newdf = df.select(df.col("*")).where(df.col("somecol").leq(10))y cuando ...

1 la respuesta

Problemas al probar el ejemplo en Spark-shell

Quería probar Spark 2.0, pero cuando intenté ejecutar el siguiente código de http://spark.apache.org/docs/latest/sql-programming-guide.html#getting-started [http://spark.apache.org/docs/latest/sql-programming-guide.html#getting-started] import ...

9 la respuesta

Sobrescribir particiones específicas en el método de escritura de trama de datos de chispa

Quiero sobrescribir particiones específicas en lugar de todas en chispa. Estoy intentando el siguiente comando: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')donde df es un marco de datos que tiene los datos ...

3 la respuesta

¿Cómo crear SparkSession con soporte de Hive (falla con "No se encuentran las clases de Hive")?

Recibo este error cuando intento ejecutar este código. import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class App { public static void main(String[] args) throws Exception { ...

2 la respuesta

Operador de comparación en PySpark (no igual /! =)

Estoy tratando de obtener todas las filas en un marco de datos donde dos banderas están configuradas en '1' y, posteriormente, todas aquellas en las que solo una de las dos está configurada en '1' y la otraNO ES IGUALa 1' Con el siguiente ...

1 la respuesta

PySpark: StructField (..., ..., False) siempre devuelve `nullable = true` en lugar de` nullable = false`

Soy nuevo en PySpark y enfrento un problema extraño. Estoy tratando de establecer alguna columna en no anulable mientras se carga un conjunto de datos CSV. Puedo reproducir mi caso con un conjunto de datos muy pequeño (test.csv): col1,col2,col3 ...

3 la respuesta

Lea desde una tabla de colmena y escríbale usando spark sql

Estoy leyendo una tabla de Hive usando Spark SQL y asignándola a un scala val val x = sqlContext.sql("select * from some_table")Luego estoy procesando un poco con el marco de datos x y finalmente obtengo un marco de datos y, que tiene el esquema ...

2 la respuesta

Leer JSON multilínea en Apache Spark

Estaba tratando de usar un archivo JSON como una pequeña base de datos. Después de crear una tabla de plantilla en DataFrame, la consulté con SQL y obtuve una excepción. Aquí está mi código: val df = sqlCtx.read.json("/path/to/user.json") ...