Resultados de la búsqueda a petición "spark-dataframe"

1 la respuesta

Scala: Spark SQL to_date (unix_timestamp) que devuelve NULL

Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Estoy cargando un csv en bruto en un DataFrame. En csv, aunque se admite que la columna esté en formato de fecha, se escriben como 20161025 en lugar de 2016-10-25. El parámetrodate_format ...

4 la respuesta

¿Cuáles son las posibles razones para recibir TimeoutException ?: Futures expiró después de [n segundos] al trabajar con Spark [duplicar]

Esta pregunta ya tiene una respuesta aquí: ¿Por qué falla la unión con "java.util.concurrent.TimeoutException: Futures expiró después de [300 ...

2 la respuesta

Cómo lanzar un WrappedArray [WrappedArray [Float]] a Array [Array [Float]] en spark (scala)

Estoy usando Spark 2.0. Tengo una columna de mi marco de datos que contiene unWrappedArray de Wrapped Arrays of Float. Un ejemplo de una fila sería: [[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]]Estoy tratando de transformar esta columna en ...

1 la respuesta

Spark Window Functions requiere HiveContext?

Estoy probando un ejemplo de función de ventana en spark de este ...

1 la respuesta

PySpark Cómo leer CSV en Dataframe y manipularlo

Soy bastante nuevo en pyspark y estoy tratando de usarlo para procesar un gran conjunto de datos que se guarda como un archivo csv. Me gustaría leer el archivo CSV en el marco de datos de chispa, soltar algunas columnas y agregar nuevas columnas. ...

1 la respuesta

Cómo hacer operaciones matemáticas con dos columnas en el marco de datos usando pyspark

Tengo un marco de datos con tres columnas "x", "y" y "z" x y z bn 12452 221 mb 14521 330 pl 12563 160 lo 22516 142Necesito crear otra columna derivada de esta fórmula. (m = z / y+z)Entonces, los nuevos marcos de datos deberían verse así: x y z ...

1 la respuesta

¿Cómo puedo escribir un archivo de parquet usando Spark (pyspark)?

Soy bastante nuevo en Spark y he estado tratando de convertir un Dataframe a un archivo de parquet en Spark, pero aún no he tenido éxito. losdocumentación [http://spark.apache.org/docs/latest/sql-programming-guide.html#parquet-files] dice que ...

1 la respuesta

GroupByKey y cree listas de valores pyspark sql dataframe

Entonces tengo un marco de datos de chispa que se parece a: a | b | c 5 | 2 | 1 5 | 4 | 3 2 | 4 | 2 2 | 3 | 7Y quiero agrupar por columnaa, cree una lista de valores de la columna b, y olvídese de c. El marco de datos de salida sería: a | ...

1 la respuesta

Contenido dividido de la columna String en PySpark Dataframe

Tengo un marco de datos pyspark que tiene una columna que contiene cadenas. Quiero dividir esta columna en palabras. Código: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', ...

2 la respuesta

Relleno en un marco de datos Pyspark

Tengo un marco de datos Pyspark (Marco de datos original) con los siguientes datos (todas las columnas tienencuerdatipo de datos): id Value 1 103 2 1504 3 1Necesito crear un nuevomarco de datos modificadoconrellenoenvalorcolumna, por lo que la ...