Resultados de la búsqueda a petición "apache-spark-sql"
SPARK: falla: `` unión '' esperada pero `('encontrada
Tengo un marco de datos llamado df con una columna llamada employee_id. Estoy haciendo: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result ...
Calcular la desviación estándar de datos agrupados en un Spark DataFrame
Tengo registros de usuarios que tomé de un csv y convertí en un DataFrame para aprovechar las funciones de consulta de SparkSQL. Un solo usuario creará numerosas entradas por hora, y me gustaría recopilar información estadística básica para cada ...
Spark dataframes groupby en la lista
Estoy tratando de hacer un análisis en conjuntos. Tengo un conjunto de datos de muestra que se ve así: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}Todo lo que es, es un campo único que es una lista de ...
Procesar todas las columnas / toda la fila en un Spark UDF
Para un marco de datos que contiene una combinación de cadenas y tipos de datos numéricos, el objetivo es crear un nuevofeatures columna que es unaminhash de todos ellos Si bien esto podría hacerse realizando unadataframe.toRDD es costoso ...
Cómo exportar datos de Spark SQL a CSV
Este comando funciona con HiveQL: insert overwrite directory '/data/home.csv' select * from testtable;Pero con Spark SQL obtengo un error con unorg.apache.spark.sql.hive.HiveQl seguimiento de pila: java.lang.RuntimeException: Unsupported ...
Spark: escribir DataFrame como JSON comprimido
Apache Spark'sDataFrameReader.json() puede manejar archivos JSONlines comprimidos automáticamente pero no parece haber una manera de obtenerDataFrameWriter.json() para escribir archivos JSONlines comprimidos. La red de E / S adicional es muy ...
¿Cómo conectarse a un Hive metastore programáticamente en SparkSQL?
Estoy usando HiveContext con SparkSQL y estoy tratando de conectarme a un Hive metastore remoto, la única forma de configurar el hive metastore es incluir hive-site.xml en el classpath (o copiarlo a / etc / spark / conf /). ¿Hay alguna manera de ...
Filtrar un marco de datos de chispa basado en la fecha
Tengo un marco de datos de date, string, stringQuiero seleccionar fechas antes de un cierto período. He intentado lo siguiente sin suerte data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime))Recibo un error que ...
Spark SQL - Cadena de consulta de escape
No puedo creer que te pregunte esto pero ... ¿CÓMO ESCAPAR UNA CADENA DE CONSULTA SQL EN SPARK SQL UTILIZANDO SCALA? He cansado todo y buscado en todas partes. Pensé que la biblioteca de apache commons lo haría, pero no tuve suerte: import ...
PySpark, importando esquema a través del archivo JSON
tbschema.json Se ve como esto: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Lo cargo usando el siguiente código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...