Resultados de la búsqueda a petición "apache-spark-sql"

3 la respuesta

Pyspark DataFrame UDF en columna de texto

Estoy tratando de hacer una limpieza de texto NLP de algunas columnas Unicode en un PySpark DataFrame. He intentado en Spark 1.3, 1.5 y 1.6 y parece que no puedo hacer que las cosas funcionen para mí. También he intentado usar Python 2.7 y Python ...

2 la respuesta

Partición DataFrame Por un solo archivo Parquet (por partición)

Me gustaría reparar / fusionar mis datos para que se guarden en un archivo Parquet por partición. También me gustaría usar la partición Spark SQL por API. Entonces podría hacer eso así: df.coalesce(1).write.partitionBy("entity", "year", "month", ...

3 la respuesta

Spark: Agregar columna al marco de datos condicionalmente

Estoy tratando de tomar mis datos de entrada: A B C -------------- 4 blah 2 2 3 56 foo 3Y agregue una columna al final según si B está vacío o no: A B C D -------------------- 4 blah 2 1 2 3 0 56 foo 3 1Puedo hacer esto fácilmente registrando ...

2 la respuesta

Múltiples operaciones agregadas en la misma columna de un marco de datos de chispa

Tengo tres matrices de tipo de cadena que contienen la siguiente información: matriz groupBy: contiene los nombres de las columnas por las que quiero agrupar mis datos.matriz agregada: contiene nombres de columnas que quiero agregar.matriz de ...

1 la respuesta

Función Strip o Regex en Spark 1.3 Dataframe

Tengo un código de PySpark 1.5 que desafortunadamente tengo que portar hacia atrás a Spark 1.3. Tengo una columna con elementos que son alfanuméricos pero solo quiero los dígitos. Un ejemplo de los elementos en 'old_col' de 'df' son: '125 ...

3 la respuesta

¿Cómo crear un conjunto de datos a partir de la clase personalizada Persona?

Estaba tratando de crear unDataset en Java, entonces escribo el siguiente código: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset ...

1 la respuesta

Función Apache Spark Window con columna anidada

No estoy seguro de que esto sea un error (o simplemente una sintaxis incorrecta). Busqué alrededor y no vi esto mencionado en otra parte, así que pregunto aquí antes de presentar un informe de error. Estoy tratando de usar una función de Windows ...

1 la respuesta

Desbordamiento de pila al procesar varias columnas con un UDF

tengo unDataFrame con muchas columnas destr tipo, y quiero aplicar una función a todas esas columnas, sin renombrar sus nombres o agregar más columnas, intenté usar unfor-in ejecución de buclewithColumn (ver ejemplo más abajo), pero normalmente ...

3 la respuesta

La interfaz de usuario de Spark muestra 0 núcleos incluso cuando se configuran núcleos en la aplicación

Tengo un problema extraño al ejecutar una aplicación fuera de la url maestra de chispas donde la interfaz de usuario informa un "ESTADO" de "ESPERA" indefinidamente ya que se muestran 0 núcleos en la tabla APLICACIONES EN EJECUCIÓN sin importar ...

1 la respuesta

función de ventana first_value en pyspark

Estoy usando pyspark 1.5 obteniendo mis datos de las tablas de Hive e intentando usar las funciones de ventanas. De acuerdo aesta [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] existe una función ...