Resultados de la búsqueda a petición "pyspark"
Apache Spark con Python: error
Nuevo en Spark. Descargué todo bien, pero cuando ejecuto pyspark obtengo los siguientes errores: Type "help", "copyright", "credits" or "license" for more information. Using Spark's default log4j profile: ...
Cómo seleccionar y ordenar múltiples columnas en un Pyspark Dataframe después de una unión
Quiero seleccionar varias columnas del marco de datos existente (que se crea después de las uniones) y me gustaría ordenar los fileds como mi estructura de tabla de destino. Cómo puede hacerse esto ? El acercamiento que he usado está abajo. Aquí ...
Método de error de lanzamiento de PySpark __getnewargs __ ([]) no existe
Tengo un conjunto de archivos. La ruta a los archivos se guarda en un archivo., Diga "all_files.txt". Usando apache spark, necesito hacer una operación en todos los archivos y agrupar los resultados. Los pasos que quiero hacer son: Cree un RDD ...
Ejecución de Spark en clúster: el trabajo inicial no ha aceptado ningún recurso
Tengo un servidor Ubuntu remoto enlinode.com [http://linode.com]con 4 núcleos y 8G RAMTengo un clúster Spark-2 que consta de 1 maestro y 1 esclavo en mi servidor Ubuntu remoto.He iniciado PySpark Shell localmente en mi MacBook, conectado a mi ...
¿Cómo derretir Spark DataFrame?
¿Hay un equivalente de la función Pandas Melt en Apache Spark en PySpark o al menos en Scala? Estaba ejecutando un conjunto de datos de muestra hasta ahora en python y ahora quiero usar Spark para todo el conjunto de datos. Gracias por adelantado.
Apache Spark lee para S3: no puede encurtir objetos thread.lock
Así que quiero que mi aplicación Spark lea algún texto del S3 de Amazon. Escribí el siguiente script simple: import boto3 s3_client = boto3.client('s3') text_keys = ["key1.txt", "key2.txt"] data = sc.parallelize(text_keys).flatMap(lambda ...
Anteponer ceros a un valor en PySpark
Tengo un marco de datosdf : val1 val2 val3 271 70 151 213 1 379 213 3 90 213 6 288 20 55 165Quiero transformar este marco de datos como: val1 val2 val3 271 70 0151 213 01 0379 213 03 0090 213 06 0288 020 55 0165¿Cómo puedo hacer eso en pyspark? ...
Error de PySpark: AttributeError: el objeto 'NoneType' no tiene el atributo '_jvm'
Tengo un conjunto de datos de marca de tiempo que está en formato de Y he escrito un udf en pyspark para procesar este conjunto de datos y devolverlo como Mapa de valores clave. Pero me estoy poniendo debajo del mensaje de error. Conjunto de ...
Spark Structured Streaming usando sockets, configure SCHEMA, Display DATAFRAME en la consola
¿Cómo puedo configurar un esquema para una transmisión?DataFrame en PySpark from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import ...
Especificar el nombre de archivo al guardar un DataFrame como CSV [duplicado]
Esta pregunta ya tiene una respuesta aquí: Spark dataframe guardar en un solo archivo en la ubicación hdfs [duplicado] [/questions/40792434/spark-dataframe-save-in-single-file-on-hdfs-location] 1 respuestaDigamos que tengo un Spark DF que quiero ...