Resultados de la búsqueda a petición "apache-spark-sql"
Pyspark DataFrame UDF en columna de texto
Estoy tratando de hacer una limpieza de texto NLP de algunas columnas Unicode en un PySpark DataFrame. He intentado en Spark 1.3, 1.5 y 1.6 y parece que no puedo hacer que las cosas funcionen para mí. También he intentado usar Python 2.7 y Python ...
Partición DataFrame Por un solo archivo Parquet (por partición)
Me gustaría reparar / fusionar mis datos para que se guarden en un archivo Parquet por partición. También me gustaría usar la partición Spark SQL por API. Entonces podría hacer eso así: df.coalesce(1).write.partitionBy("entity", "year", "month", ...
Spark: Agregar columna al marco de datos condicionalmente
Estoy tratando de tomar mis datos de entrada: A B C -------------- 4 blah 2 2 3 56 foo 3Y agregue una columna al final según si B está vacío o no: A B C D -------------------- 4 blah 2 1 2 3 0 56 foo 3 1Puedo hacer esto fácilmente registrando ...
Múltiples operaciones agregadas en la misma columna de un marco de datos de chispa
Tengo tres matrices de tipo de cadena que contienen la siguiente información: matriz groupBy: contiene los nombres de las columnas por las que quiero agrupar mis datos.matriz agregada: contiene nombres de columnas que quiero agregar.matriz de ...
Función Strip o Regex en Spark 1.3 Dataframe
Tengo un código de PySpark 1.5 que desafortunadamente tengo que portar hacia atrás a Spark 1.3. Tengo una columna con elementos que son alfanuméricos pero solo quiero los dígitos. Un ejemplo de los elementos en 'old_col' de 'df' son: '125 ...
¿Cómo crear un conjunto de datos a partir de la clase personalizada Persona?
Estaba tratando de crear unDataset en Java, entonces escribo el siguiente código: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset ...
Función Apache Spark Window con columna anidada
No estoy seguro de que esto sea un error (o simplemente una sintaxis incorrecta). Busqué alrededor y no vi esto mencionado en otra parte, así que pregunto aquí antes de presentar un informe de error. Estoy tratando de usar una función de Windows ...
Desbordamiento de pila al procesar varias columnas con un UDF
tengo unDataFrame con muchas columnas destr tipo, y quiero aplicar una función a todas esas columnas, sin renombrar sus nombres o agregar más columnas, intenté usar unfor-in ejecución de buclewithColumn (ver ejemplo más abajo), pero normalmente ...
La interfaz de usuario de Spark muestra 0 núcleos incluso cuando se configuran núcleos en la aplicación
Tengo un problema extraño al ejecutar una aplicación fuera de la url maestra de chispas donde la interfaz de usuario informa un "ESTADO" de "ESPERA" indefinidamente ya que se muestran 0 núcleos en la tabla APLICACIONES EN EJECUCIÓN sin importar ...
función de ventana first_value en pyspark
Estoy usando pyspark 1.5 obteniendo mis datos de las tablas de Hive e intentando usar las funciones de ventanas. De acuerdo aesta [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] existe una función ...