Resultados de la búsqueda a petición "pyspark"

1 la respuesta

En PySpark 1.5.0, ¿cómo enumera todos los elementos de la columna `y` en función de los valores de la columna` x`?

La siguiente pregunta es específica de la versión 1.5.0 de PySpark, ya que constantemente se agregan nuevas características a PySpark. ¿Cómo enumeras todos los elementos de la columna?y basado en los valores de la columnax? Por ejemplo: rdd = ...

3 la respuesta

PySpark: escupe un solo archivo al escribir en lugar de varios archivos de pieza

¿Hay alguna manera de evitar que PySpark cree varios archivos pequeños al escribir un DataFrame en un archivo JSON? Si corro: df.write.format('json').save('myfile.json')o df1.write.json('myfile.json')crea la carpeta llamadamyfile y dentro de ...

5 la respuesta

PySpark utilizando roles de IAM para acceder a S3

Me pregunto si PySpark admite el acceso S3 utilizando roles de IAM. Específicamente, tengo una restricción comercial en la que tengo que asumir un rol de AWS para acceder a un grupo determinado. Esto está bien cuando uso boto (ya que es parte de ...

4 la respuesta

java.lang.OutOfMemoryError en pyspark

Hy Tengo un marco de datos en un sparkcontext con 400k filas y 3 columnas. El controlador tiene 143.5 de memoria de almacenamiento 16/03/21 19:52:35 INFO BlockManagerMasterEndpoint: Registering block manager localhost:55613 with 143.5 GB RAM, ...

1 la respuesta

Spark leyendo python3 pickle como entrada

Mis datos están disponibles como conjuntos de archivos en escabeche de Python 3. La mayoría de ellos son serialización de pandasDataFrames. Me gustaría comenzar a usar Spark porque necesito más memoria y CPU que una computadora puede tener. ...

8 la respuesta

Guardar contenido de Spark DataFrame como un único archivo CSV [duplicado]

Esta pregunta ya tiene una respuesta aquí: Escriba un solo archivo CSV usando spark-csv [/questions/31674530/write-single-csv-file-using-spark-csv] 8 respuestasDigo que tengo un Spark DataFrame que quiero guardar como archivo CSV. DespuésSpark ...

1 la respuesta

¿Cómo puedo aplanar un marco de datos pySpark por una columna de matriz? [duplicar

Esta pregunta ya tiene una respuesta aquí: Dividir filas complejas de trama de datos en filas simples en Pyspark [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 respuestas Tengo un marco de datos de chispa ...

3 la respuesta

Explode datos de matriz en filas en chispa [duplicado]

Esta pregunta ya tiene una respuesta aquí: Dividir filas complejas de trama de datos en filas simples en Pyspark [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 respuestas Tengo un conjunto de datos de la ...

1 la respuesta

`combineByKey`, pyspark [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Quién puede dar una explicación clara de `combineByKey` en Spark? [/questions/33937625/who-can-give-a-clear-explanation-for-combinebykey-in-spark] 1 respuestaApache Spark: ¿Cuál es la implementación ...

1 la respuesta

a función .count () de @ Spark es diferente al contenido del marco de datos cuando se filtra en el campo de registro corrupto

Tengo un trabajo de Spark, escrito en Python, que está obteniendo un comportamiento extraño al verificar los errores en sus datos. A continuación se muestra una versión simplificada: from pyspark.sql import SparkSession from pyspark.sql.types ...