Resultados de la búsqueda a petición "pyspark"

7 la respuesta

Apache Spark con Python: error

Nuevo en Spark. Descargué todo bien, pero cuando ejecuto pyspark obtengo los siguientes errores: Type "help", "copyright", "credits" or "license" for more information. Using Spark's default log4j profile: ...

1 la respuesta

Cómo seleccionar y ordenar múltiples columnas en un Pyspark Dataframe después de una unión

Quiero seleccionar varias columnas del marco de datos existente (que se crea después de las uniones) y me gustaría ordenar los fileds como mi estructura de tabla de destino. Cómo puede hacerse esto ? El acercamiento que he usado está abajo. Aquí ...

1 la respuesta

Método de error de lanzamiento de PySpark __getnewargs __ ([]) no existe

Tengo un conjunto de archivos. La ruta a los archivos se guarda en un archivo., Diga "all_files.txt". Usando apache spark, necesito hacer una operación en todos los archivos y agrupar los resultados. Los pasos que quiero hacer son: Cree un RDD ...

1 la respuesta

Ejecución de Spark en clúster: el trabajo inicial no ha aceptado ningún recurso

Tengo un servidor Ubuntu remoto enlinode.com [http://linode.com]con 4 núcleos y 8G RAMTengo un clúster Spark-2 que consta de 1 maestro y 1 esclavo en mi servidor Ubuntu remoto.He iniciado PySpark Shell localmente en mi MacBook, conectado a mi ...

4 la respuesta

¿Cómo derretir Spark DataFrame?

¿Hay un equivalente de la función Pandas Melt en Apache Spark en PySpark o al menos en Scala? Estaba ejecutando un conjunto de datos de muestra hasta ahora en python y ahora quiero usar Spark para todo el conjunto de datos. Gracias por adelantado.

2 la respuesta

Apache Spark lee para S3: no puede encurtir objetos thread.lock

Así que quiero que mi aplicación Spark lea algún texto del S3 de Amazon. Escribí el siguiente script simple: import boto3 s3_client = boto3.client('s3') text_keys = ["key1.txt", "key2.txt"] data = sc.parallelize(text_keys).flatMap(lambda ...

1 la respuesta

Anteponer ceros a un valor en PySpark

Tengo un marco de datosdf : val1 val2 val3 271 70 151 213 1 379 213 3 90 213 6 288 20 55 165Quiero transformar este marco de datos como: val1 val2 val3 271 70 0151 213 01 0379 213 03 0090 213 06 0288 020 55 0165¿Cómo puedo hacer eso en pyspark? ...

3 la respuesta

Error de PySpark: AttributeError: el objeto 'NoneType' no tiene el atributo '_jvm'

Tengo un conjunto de datos de marca de tiempo que está en formato de Y he escrito un udf en pyspark para procesar este conjunto de datos y devolverlo como Mapa de valores clave. Pero me estoy poniendo debajo del mensaje de error. Conjunto de ...

1 la respuesta

Spark Structured Streaming usando sockets, configure SCHEMA, Display DATAFRAME en la consola

¿Cómo puedo configurar un esquema para una transmisión?DataFrame en PySpark from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import ...

1 la respuesta

Especificar el nombre de archivo al guardar un DataFrame como CSV [duplicado]

Esta pregunta ya tiene una respuesta aquí: Spark dataframe guardar en un solo archivo en la ubicación hdfs [duplicado] [/questions/40792434/spark-dataframe-save-in-single-file-on-hdfs-location] 1 respuestaDigamos que tengo un Spark DF que quiero ...