Resultados de la búsqueda a petición "pyspark"

1 la respuesta

¿Cómo repartir uniformemente en Spark?

Para probar cómo.repartition() funciona, ejecuté el siguiente código: rdd = sc.parallelize(range(100)) rdd.getNumPartitions()rdd.getNumPartitions() resultó en4. Entonces corrí: rdd = rdd.repartition(10) ...

1 la respuesta

¿Cómo hash PySpark DataFrame para obtener un flotador devuelto?

Digamos que tengo un marco de datos de chispa +--------+-----+ | letter|count| +--------+-----+ | a| 2| | b| 2| | c| 1| +--------+-----+Entonces quise encontrar la media. Así que lo hice df = df.groupBy().mean('letter')que dan un marco de ...

1 la respuesta

unionAll resultando en StackOverflow

He progresado con mi propia pregunta (¿Cómo cargar un marco de datos desde una secuencia de solicitudes de Python que está descargando un archivo ...

4 la respuesta

java.lang.OutOfMemoryError: no se pueden adquirir 100 bytes de memoria, obtuve 0

Invoco Pyspark con Spark 2.0 en modo local con el siguiente comando: pyspark --executor-memory 4g --driver-memory 4gEl marco de datos de entrada se está leyendo desde un archivo tsv y tiene 580 K x 28 columnas. Estoy haciendo algunas operaciones ...

1 la respuesta

¿Por qué OneHotEncoder de Spark elimina la última categoría de forma predeterminada?

Me gustaría entender lo racional detrás del OneHotEncoder de Spark que deja caer la última categoría por defecto. Por ejemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

2 la respuesta

Explotar en PySpark

Me gustaría transformar de un DataFrame que contiene listas de palabras en un DataFrame con cada palabra en su propia fila. ¿Cómo exploto en una columna en un DataFrame? Aquí hay un ejemplo con algunos de mis intentos en los que puede ...

1 la respuesta

Error de desbordamiento de pila cuando se aplica "recomendar productos para usuarios" de pyspark ALS (aunque está disponible un clúster de> 300 GB de RAM)

Buscando experiencia para guiarme en el tema a continuación. Antecedentes: Estoy tratando de comenzar con un script PySpark básico inspirado eneste ...

5 la respuesta

Convierta la columna Spark DataFrame a la lista de Python

Trabajo en un marco de datos con dos columnas, mvv y count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |Me gustaría obtener dos listas que contengan valores mvv y valor de conteo. Algo como mvv = [1,2,3,4] count = ...

3 la respuesta

¿Cómo saber el modo de implementación de la aplicación PySpark?

Estoy tratando de solucionar un problema con la falta de memoria y quiero saber si necesito cambiar esta configuración en el archivo de configuraciones predeterminado (spark-defaults.conf) en la carpeta de inicio de spark. O, si puedo ...

1 la respuesta

Cómo dividir Vector en columnas - usando PySpark

Contexto:tengo unDataFrame con 2 columnas: palabra y vector. Donde el tipo de columna de "vector" esVectorUDT. Un ejemplo: word | vector assert | [435,323,324,212...] ,Y quiero obtener esto: word | v1 | v2 | v3 | v4 | v5 | v6 ...... assert | ...