Resultados de la búsqueda a petición "spark-dataframe"

2 la respuesta

Intersección de matriz en Spark SQL

Tengo una tabla con una columna de tipo de matriz llamadawriter que tiene los valores comoarray[value1, value2], array[value2, value3].... etc. estoy haciendoself join para obtener resultados que tengan valores comunes entre matrices. Lo ...

2 la respuesta

No se puede resolver la columna (nombre de columna numérico) en Spark Dataframe

Esta es mi información: scala> data.printSchema root |-- 1.0: string (nullable = true) |-- 2.0: string (nullable = true) |-- 3.0: string (nullable = true)Esto no funciona :( scala> ...

3 la respuesta

Pyspark: Pase múltiples columnas en UDF

Estoy escribiendo una función definida por el usuario que tomará todas las columnas excepto la primera en un marco de datos y sumará (o cualquier otra operación). Ahora el marco de datos a veces puede tener 3 columnas o 4 columnas o más. ...

1 la respuesta

¿Cómo habilitar la unión cartesiana en Spark 2.0? [duplicar

Esta pregunta ya tiene una respuesta aquí: spark.sql.crossJoin.enabled para Spark 2.x [/questions/38999140/spark-sql-crossjoin-enabled-for-spark-2-x] 3 respuestas Tengo que cruzar el dataframe 2 en Spark 2.0 Me encuentro con el ...

1 la respuesta

¿Cómo puedo escribir un archivo de parquet usando Spark (pyspark)?

Soy bastante nuevo en Spark y he estado tratando de convertir un Dataframe a un archivo de parquet en Spark, pero aún no he tenido éxito. losdocumentación [http://spark.apache.org/docs/latest/sql-programming-guide.html#parquet-files] dice que ...

2 la respuesta

Cómo lanzar un WrappedArray [WrappedArray [Float]] a Array [Array [Float]] en spark (scala)

Estoy usando Spark 2.0. Tengo una columna de mi marco de datos que contiene unWrappedArray de Wrapped Arrays of Float. Un ejemplo de una fila sería: [[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]]Estoy tratando de transformar esta columna en ...

1 la respuesta

Contenido dividido de la columna String en PySpark Dataframe

Tengo un marco de datos pyspark que tiene una columna que contiene cadenas. Quiero dividir esta columna en palabras. Código: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', ...

1 la respuesta

Aplicar una función a una sola columna de un csv en Spark

Usando Spark, estoy leyendo un csv y quiero aplicar una función a una columna en el csv. Tengo un código que funciona pero es muy hacky. ¿Cuál es la forma apropiada de hacer esto? Mi código SparkContext().addPyFile("myfile.py") spark = ...

2 la respuesta

Cómo escribir en el almacén de PostgreSQL usando Spark Dataset

Estoy tratando de escribir un conjunto de datos de Spark en una tabla postgresql existente (no puedo cambiar los metadatos de la tabla como los tipos de columna). Una de las columnas de esta tabla es de ...

1 la respuesta

GroupByKey y cree listas de valores pyspark sql dataframe

Entonces tengo un marco de datos de chispa que se parece a: a | b | c 5 | 2 | 1 5 | 4 | 3 2 | 4 | 2 2 | 3 | 7Y quiero agrupar por columnaa, cree una lista de valores de la columna b, y olvídese de c. El marco de datos de salida sería: a | ...