Resultados de la búsqueda a petición "pyspark"
En Pyspark HiveContext, ¿cuál es el equivalente de SQL OFFSET?
O una pregunta más específica sería ¿cómo puedo procesar grandes cantidades de datos que no caben en la memoria a la vez? Con OFFSET estaba tratando de hacer hiveContext.sql ("seleccionar ... límite 10 offset 10") mientras incrementaba el offset ...
Pyspark - ValueError: no se pudo convertir la cadena en flotante / literal no válido para float ()
Estoy tratando de usar datos de un marco de datos de chispa como entrada para mi modelo k-means. Sin embargo, sigo recibiendo errores. (Ver sección después del código) Mi marco de datos de chispa y se ve así (y tiene alrededor de 1 millón ...
¿Cómo escribir Pyspark UDAF en varias columnas?
Tengo los siguientes datos en un marco de datos pyspark llamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BY quiero agregarlo de la siguiente manera: Quiero usar las ...
Difundir una clase definida por el usuario en Spark
Estoy tratando de transmitir una variable definida por el usuario en una aplicación PySpark pero siempre tengo el siguiente error: File "/usr/local/spark-2.1.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/worker.py", line 174, in main process() ...
obtener el tipo de datos de la columna usando pyspark
Estamos leyendo datos de MongoDBCollection. Collection La columna tiene dos valores diferentes (por ejemplo:(bson.Int64,int) (int,float) ) Estoy tratando de obtener un tipo de datos usando pyspark. Mi problema es que algunas columnas tienen un ...
¿Cómo pivotar en múltiples columnas en Spark SQL?
Necesito pivotar más de una columna en un marco de datos pyspark. Marco de datos de muestra, >>> d ...
¿Cómo agregar una columna a una estructura explotada en Spark?
Digamos que tengo los siguientes datos: {"id":1, "payload":[{"foo":1, "lol":2},{"foo":2, "lol":2}]}Me gustaría explotar la carga útil y agregarle una columna, como esta: df = df.select('id', F.explode('payload').alias('data')) df ...
PySpark: ¿Cómo rellenar valores en el marco de datos para columnas específicas?
Tengo el siguiente DataFrame de muestra: a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 |Y quiero reemplazar los valores nulos solo en las 2 primeras columnas - Columna "a" y "b": a | b | c | 1 | 2 | 4 | 0 | 0 | null| 0 | 3 | 4 |Aquí ...
Lectura de múltiples carpetas / rutas S3 en PySpark
Estoy realizando un análisis de big data con PySpark. Puedo importar todos los archivos CSV, almacenados en una carpeta particular de un depósito en particular, usando el siguiente comando: df = ...
¿Cómo mostrar un DataFrame de transmisión (ya que el programa falla con AnalysisException)?
Así que tengo algunos datos que estoy transmitiendo en un tema de Kafka, tomo estos datos de transmisión y los coloco en unDataFrame. Quiero mostrar los datos dentro del DataFrame: import os from kafka import KafkaProducer from pyspark.sql ...