Resultados de la búsqueda a petición "pyspark"
¿Cómo repartir uniformemente en Spark?
Para probar cómo.repartition() funciona, ejecuté el siguiente código: rdd = sc.parallelize(range(100)) rdd.getNumPartitions()rdd.getNumPartitions() resultó en4. Entonces corrí: rdd = rdd.repartition(10) ...
¿Cómo hash PySpark DataFrame para obtener un flotador devuelto?
Digamos que tengo un marco de datos de chispa +--------+-----+ | letter|count| +--------+-----+ | a| 2| | b| 2| | c| 1| +--------+-----+Entonces quise encontrar la media. Así que lo hice df = df.groupBy().mean('letter')que dan un marco de ...
unionAll resultando en StackOverflow
He progresado con mi propia pregunta (¿Cómo cargar un marco de datos desde una secuencia de solicitudes de Python que está descargando un archivo ...
java.lang.OutOfMemoryError: no se pueden adquirir 100 bytes de memoria, obtuve 0
Invoco Pyspark con Spark 2.0 en modo local con el siguiente comando: pyspark --executor-memory 4g --driver-memory 4gEl marco de datos de entrada se está leyendo desde un archivo tsv y tiene 580 K x 28 columnas. Estoy haciendo algunas operaciones ...
¿Por qué OneHotEncoder de Spark elimina la última categoría de forma predeterminada?
Me gustaría entender lo racional detrás del OneHotEncoder de Spark que deja caer la última categoría por defecto. Por ejemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...
Explotar en PySpark
Me gustaría transformar de un DataFrame que contiene listas de palabras en un DataFrame con cada palabra en su propia fila. ¿Cómo exploto en una columna en un DataFrame? Aquí hay un ejemplo con algunos de mis intentos en los que puede ...
Error de desbordamiento de pila cuando se aplica "recomendar productos para usuarios" de pyspark ALS (aunque está disponible un clúster de> 300 GB de RAM)
Buscando experiencia para guiarme en el tema a continuación. Antecedentes: Estoy tratando de comenzar con un script PySpark básico inspirado eneste ...
Convierta la columna Spark DataFrame a la lista de Python
Trabajo en un marco de datos con dos columnas, mvv y count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |Me gustaría obtener dos listas que contengan valores mvv y valor de conteo. Algo como mvv = [1,2,3,4] count = ...
¿Cómo saber el modo de implementación de la aplicación PySpark?
Estoy tratando de solucionar un problema con la falta de memoria y quiero saber si necesito cambiar esta configuración en el archivo de configuraciones predeterminado (spark-defaults.conf) en la carpeta de inicio de spark. O, si puedo ...
Cómo dividir Vector en columnas - usando PySpark
Contexto:tengo unDataFrame con 2 columnas: palabra y vector. Donde el tipo de columna de "vector" esVectorUDT. Un ejemplo: word | vector assert | [435,323,324,212...] ,Y quiero obtener esto: word | v1 | v2 | v3 | v4 | v5 | v6 ...... assert | ...