Resultados de la búsqueda a petición "pyspark"
En PySpark 1.5.0, ¿cómo enumera todos los elementos de la columna `y` en función de los valores de la columna` x`?
La siguiente pregunta es específica de la versión 1.5.0 de PySpark, ya que constantemente se agregan nuevas características a PySpark. ¿Cómo enumeras todos los elementos de la columna?y basado en los valores de la columnax? Por ejemplo: rdd = ...
PySpark: escupe un solo archivo al escribir en lugar de varios archivos de pieza
¿Hay alguna manera de evitar que PySpark cree varios archivos pequeños al escribir un DataFrame en un archivo JSON? Si corro: df.write.format('json').save('myfile.json')o df1.write.json('myfile.json')crea la carpeta llamadamyfile y dentro de ...
PySpark utilizando roles de IAM para acceder a S3
Me pregunto si PySpark admite el acceso S3 utilizando roles de IAM. Específicamente, tengo una restricción comercial en la que tengo que asumir un rol de AWS para acceder a un grupo determinado. Esto está bien cuando uso boto (ya que es parte de ...
java.lang.OutOfMemoryError en pyspark
Hy Tengo un marco de datos en un sparkcontext con 400k filas y 3 columnas. El controlador tiene 143.5 de memoria de almacenamiento 16/03/21 19:52:35 INFO BlockManagerMasterEndpoint: Registering block manager localhost:55613 with 143.5 GB RAM, ...
Spark leyendo python3 pickle como entrada
Mis datos están disponibles como conjuntos de archivos en escabeche de Python 3. La mayoría de ellos son serialización de pandasDataFrames. Me gustaría comenzar a usar Spark porque necesito más memoria y CPU que una computadora puede tener. ...
Guardar contenido de Spark DataFrame como un único archivo CSV [duplicado]
Esta pregunta ya tiene una respuesta aquí: Escriba un solo archivo CSV usando spark-csv [/questions/31674530/write-single-csv-file-using-spark-csv] 8 respuestasDigo que tengo un Spark DataFrame que quiero guardar como archivo CSV. DespuésSpark ...
¿Cómo puedo aplanar un marco de datos pySpark por una columna de matriz? [duplicar
Esta pregunta ya tiene una respuesta aquí: Dividir filas complejas de trama de datos en filas simples en Pyspark [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 respuestas Tengo un marco de datos de chispa ...
Explode datos de matriz en filas en chispa [duplicado]
Esta pregunta ya tiene una respuesta aquí: Dividir filas complejas de trama de datos en filas simples en Pyspark [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 respuestas Tengo un conjunto de datos de la ...
`combineByKey`, pyspark [duplicado]
Esta pregunta ya tiene una respuesta aquí: ¿Quién puede dar una explicación clara de `combineByKey` en Spark? [/questions/33937625/who-can-give-a-clear-explanation-for-combinebykey-in-spark] 1 respuestaApache Spark: ¿Cuál es la implementación ...
a función .count () de @ Spark es diferente al contenido del marco de datos cuando se filtra en el campo de registro corrupto
Tengo un trabajo de Spark, escrito en Python, que está obteniendo un comportamiento extraño al verificar los errores en sus datos. A continuación se muestra una versión simplificada: from pyspark.sql import SparkSession from pyspark.sql.types ...