Resultados de la búsqueda a petición "apache-spark-sql"

Tengo un marco de datos llamado df con una columna llamada employee_id. Estoy haciendo: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result ...

apache-spark scala

1 la respuesta

Calcular la desviación estándar de datos agrupados en un Spark DataFrame

Tengo registros de usuarios que tomé de un csv y convertí en un DataFrame para aprovechar las funciones de consulta de SparkSQL. Un solo usuario creará numerosas entradas por hora, y me gustaría recopilar información estadística básica para cada ...

spark-dataframe apache-spark dataframe

1 la respuesta

Spark dataframes groupby en la lista

Estoy tratando de hacer un análisis en conjuntos. Tengo un conjunto de datos de muestra que se ve así: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}Todo lo que es, es un campo único que es una lista de ...

scala apache-spark

2 la respuesta

Procesar todas las columnas / toda la fila en un Spark UDF

Para un marco de datos que contiene una combinación de cadenas y tipos de datos numéricos, el objetivo es crear un nuevofeatures columna que es unaminhash de todos ellos Si bien esto podría hacerse realizando unadataframe.toRDD es costoso ...

hadoop apache-spark export-to-csv hiveql

7 la respuesta

Cómo exportar datos de Spark SQL a CSV

Este comando funciona con HiveQL: insert overwrite directory '/data/home.csv' select * from testtable;Pero con Spark SQL obtengo un error con unorg.apache.spark.sql.hive.HiveQl seguimiento de pila: java.lang.RuntimeException: Unsupported ...

dataframe apache-spark compression gzip

3 la respuesta

Spark: escribir DataFrame como JSON comprimido

Apache Spark'sDataFrameReader.json() puede manejar archivos JSONlines comprimidos automáticamente pero no parece haber una manera de obtenerDataFrameWriter.json() para escribir archivos JSONlines comprimidos. La red de E / S adicional es muy ...

apache-spark hadoop hive

5 la respuesta

¿Cómo conectarse a un Hive metastore programáticamente en SparkSQL?

Estoy usando HiveContext con SparkSQL y estoy tratando de conectarme a un Hive metastore remoto, la única forma de configurar el hive metastore es incluir hive-site.xml en el classpath (o copiarlo a / etc / spark / conf /). ¿Hay alguna manera de ...

apache-spark

3 la respuesta

Filtrar un marco de datos de chispa basado en la fecha

Tengo un marco de datos de date, string, stringQuiero seleccionar fechas antes de un cierto período. He intentado lo siguiente sin suerte data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime))Recibo un error que ...

sql scala apache-spark

2 la respuesta

Spark SQL - Cadena de consulta de escape

No puedo creer que te pregunte esto pero ... ¿CÓMO ESCAPAR UNA CADENA DE CONSULTA SQL EN SPARK SQL UTILIZANDO SCALA? He cansado todo y buscado en todas partes. Pensé que la biblioteca de apache commons lo haría, pero no tuve suerte: import ...

apache-spark json pyspark python

1 la respuesta

PySpark, importando esquema a través del archivo JSON

tbschema.json Se ve como esto: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Lo cargo usando el siguiente código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...

Página 35 de 52

33 343536 37

Resultados de la búsqueda a petición "apache-spark-sql"

SPARK: falla: `` unión '' esperada pero `('encontrada

Calcular la desviación estándar de datos agrupados en un Spark DataFrame

Spark dataframes groupby en la lista

Etiquetas Populares

Procesar todas las columnas / toda la fila en un Spark UDF

Cómo exportar datos de Spark SQL a CSV

Spark: escribir DataFrame como JSON comprimido

¿Cómo conectarse a un Hive metastore programáticamente en SparkSQL?

Filtrar un marco de datos de chispa basado en la fecha

Spark SQL - Cadena de consulta de escape

PySpark, importando esquema a través del archivo JSON

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark-sql"

Etiquetas Populares