Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

¿Cómo usar las funciones de ventana en PySpark usando DataFrames?

Intentando descubrir cómo usar las funciones de ventana en PySpark. Aquí hay un ejemplo de lo que me gustaría poder hacer, simplemente cuente la cantidad de veces que un usuario tiene un "evento" (en este caso, "dt" es una marca de tiempo ...

1 la respuesta

El objeto 'PipelinedRDD' no tiene el atributo 'toDF' en PySpark

Estoy tratando de cargar un archivo SVM y convertirlo en unDataFrame entonces puedo usar el módulo ML (Pipeline ML) de Spark. Acabo de instalar un Spark 1.5.0 nuevo en un Ubuntu 14.04 (nospark-env.sh configurado). Mimy_script.py es: from ...

1 la respuesta

Partición Spark: mucho más lenta que sin ella

Probé escribiendo con: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)Sin embargo, si dejo de lado la partición: df.write .mode(SaveMode.Append) .parquet(filePath)Se ejecuta 100x (!) Más rápido. ¿Es normal que la ...

1 la respuesta

¿Por qué usar un UDF en una consulta SQL conduce a un producto cartesiano?

Yo viDatabricks-Question [https://forums.databricks.com/questions/1907/performance-degradation-when-using-a-custom-udfs-i.html] y no entiendo ¿Por qué el uso de UDF conduce a un producto cartesiano en lugar de una unión externa completa? ...

1 la respuesta

Codificar y ensamblar múltiples funciones en PySpark

Tengo una clase de Python que estoy usando para cargar y procesar algunos datos en Spark. Entre varias cosas que debo hacer, estoy generando una lista de variables ficticias derivadas de varias columnas en un marco de datos de Spark. Mi problema ...

1 la respuesta

¿Cómo podemos unir dos marcos de datos SQL Spark usando un criterio "LIKE" de SQL-esque?

Estamos utilizando las bibliotecas PySpark que interactúan con Spark 1.3.1. Tenemos dos marcos de datos,documents_df := {document_id, document_text} ykeywords_df := {keyword}. Nos gustaría unirnos a los dos marcos de datos y devolver un marco de ...

1 la respuesta

Conversión de varias columnas diferentes a la columna Mapa con la escala de Spark Dataframe

Tengo un marco de datos con columna:user, address1, address2, address3, phone1, phone2 y así. Quiero convertir este marco de datos a -user, address, phone where address = Map("address1" -> address1.value, "address2" -> address2.value, "address3" ...

1 la respuesta

Funciones de ventana de chispa - rango entre fechas

Estoy teniendo un Spark SQLDataFrame con datos y lo que intento obtener es todas las filas que preceden a la fila actual en un rango de fechas dado. Entonces, por ejemplo, quiero tener todas las filas de 7 días anteriores a la fila dada. Descubrí ...

1 la respuesta

Columna de matriz de acceso en Spark

Un Spark DataFrame contiene una columna de tipo Array [Double]. Lanza una excepción ClassCastException cuando intento recuperarlo en una función map (). El siguiente código Scala genera una excepción. case class Dummy( x:Array[Double] ) val df ...

1 la respuesta

¿Cómo maneja Spark DataFrame el Pandas DataFrame que es más grande que la memoria?

Ahora estoy aprendiendo Spark, y parece ser la solución de Big Data para Pandas Dataframe, pero tengo esta pregunta que me hace inseguro. Actualmente estoy almacenando marcos de datos Pandas que son más grandes que la memoria usando HDF5. HDF5 ...