Resultados de la búsqueda a petición "apache-spark-sql"
Cómo usar la palabra clave IZQUIERDA y DERECHA en SPARK SQL
Soy nuevo en provocar SQL, En MS SQL, tenemos la palabra clave IZQUIERDA,LEFT(Columnname,1) in('D','A') then 1 else 0. Cómo implementar lo mismo en SPARK SQL. Amablemente guiame
Los marcos de datos de Spark convierten JSON anidado en columnas separadas
Tengo una secuencia de JSON con la siguiente estructura que se convierte en marco de datos { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }El marco de datos muestra resultados de funciones en la siguiente ...
Spark: ¿SELECCIONAR DÓNDE o filtrar?
¿Cuál es la diferencia entre seleccionar con una cláusula where y filtrar en Spark? ¿Hay algún caso de uso en el que uno sea más apropiado que el otro? Cuando uso DataFrame newdf = df.select(df.col("*")).where(df.col("somecol").leq(10))y cuando ...
Problemas al probar el ejemplo en Spark-shell
Quería probar Spark 2.0, pero cuando intenté ejecutar el siguiente código de http://spark.apache.org/docs/latest/sql-programming-guide.html#getting-started [http://spark.apache.org/docs/latest/sql-programming-guide.html#getting-started] import ...
Sobrescribir particiones específicas en el método de escritura de trama de datos de chispa
Quiero sobrescribir particiones específicas en lugar de todas en chispa. Estoy intentando el siguiente comando: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')donde df es un marco de datos que tiene los datos ...
¿Cómo crear SparkSession con soporte de Hive (falla con "No se encuentran las clases de Hive")?
Recibo este error cuando intento ejecutar este código. import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class App { public static void main(String[] args) throws Exception { ...
Operador de comparación en PySpark (no igual /! =)
Estoy tratando de obtener todas las filas en un marco de datos donde dos banderas están configuradas en '1' y, posteriormente, todas aquellas en las que solo una de las dos está configurada en '1' y la otraNO ES IGUALa 1' Con el siguiente ...
PySpark: StructField (..., ..., False) siempre devuelve `nullable = true` en lugar de` nullable = false`
Soy nuevo en PySpark y enfrento un problema extraño. Estoy tratando de establecer alguna columna en no anulable mientras se carga un conjunto de datos CSV. Puedo reproducir mi caso con un conjunto de datos muy pequeño (test.csv): col1,col2,col3 ...
Lea desde una tabla de colmena y escríbale usando spark sql
Estoy leyendo una tabla de Hive usando Spark SQL y asignándola a un scala val val x = sqlContext.sql("select * from some_table")Luego estoy procesando un poco con el marco de datos x y finalmente obtengo un marco de datos y, que tiene el esquema ...
Leer JSON multilínea en Apache Spark
Estaba tratando de usar un archivo JSON como una pequeña base de datos. Después de crear una tabla de plantilla en DataFrame, la consulté con SQL y obtuve una excepción. Aquí está mi código: val df = sqlCtx.read.json("/path/to/user.json") ...