Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

SPARK: falla: `` unión '' esperada pero `('encontrada

Tengo un marco de datos llamado df con una columna llamada employee_id. Estoy haciendo: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result ...

1 la respuesta

Calcular la desviación estándar de datos agrupados en un Spark DataFrame

Tengo registros de usuarios que tomé de un csv y convertí en un DataFrame para aprovechar las funciones de consulta de SparkSQL. Un solo usuario creará numerosas entradas por hora, y me gustaría recopilar información estadística básica para cada ...

1 la respuesta

Spark dataframes groupby en la lista

Estoy tratando de hacer un análisis en conjuntos. Tengo un conjunto de datos de muestra que se ve así: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}Todo lo que es, es un campo único que es una lista de ...

2 la respuesta

Procesar todas las columnas / toda la fila en un Spark UDF

Para un marco de datos que contiene una combinación de cadenas y tipos de datos numéricos, el objetivo es crear un nuevofeatures columna que es unaminhash de todos ellos Si bien esto podría hacerse realizando unadataframe.toRDD es costoso ...

7 la respuesta

Cómo exportar datos de Spark SQL a CSV

Este comando funciona con HiveQL: insert overwrite directory '/data/home.csv' select * from testtable;Pero con Spark SQL obtengo un error con unorg.apache.spark.sql.hive.HiveQl seguimiento de pila: java.lang.RuntimeException: Unsupported ...

3 la respuesta

Spark: escribir DataFrame como JSON comprimido

Apache Spark'sDataFrameReader.json() puede manejar archivos JSONlines comprimidos automáticamente pero no parece haber una manera de obtenerDataFrameWriter.json() para escribir archivos JSONlines comprimidos. La red de E / S adicional es muy ...

5 la respuesta

¿Cómo conectarse a un Hive metastore programáticamente en SparkSQL?

Estoy usando HiveContext con SparkSQL y estoy tratando de conectarme a un Hive metastore remoto, la única forma de configurar el hive metastore es incluir hive-site.xml en el classpath (o copiarlo a / etc / spark / conf /). ¿Hay alguna manera de ...

3 la respuesta

Filtrar un marco de datos de chispa basado en la fecha

Tengo un marco de datos de date, string, stringQuiero seleccionar fechas antes de un cierto período. He intentado lo siguiente sin suerte data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime))Recibo un error que ...

2 la respuesta

Spark SQL - Cadena de consulta de escape

No puedo creer que te pregunte esto pero ... ¿CÓMO ESCAPAR UNA CADENA DE CONSULTA SQL EN SPARK SQL UTILIZANDO SCALA? He cansado todo y buscado en todas partes. Pensé que la biblioteca de apache commons lo haría, pero no tuve suerte: import ...

1 la respuesta

PySpark, importando esquema a través del archivo JSON

tbschema.json Se ve como esto: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Lo cargo usando el siguiente código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...