Resultados de la búsqueda a petición "pyspark"

1 la respuesta

pyspark: Crear columna MapType a partir de columnas existentes

Necesito crear una nueva columna Spark DF MapType basada en las columnas existentes donde el nombre de la columna es la clave y el valor es el valor. Como ejemplo, tengo este DF: rdd = sc.parallelize([('123k', 1.3, 6.3, 7.6), ('d23d', 1.5, 2.0, ...

3 la respuesta

(nulo) entrada en la cadena de comando excepción en saveAsTextFile () en Pyspark

Estoy trabajando en PySpark en un cuaderno Jupyter (Python 2.7) en Windows 7. Tengo un RDD de tipopyspark.rdd.PipelinedRDD llamadoidSums. Al intentar ejecutaridSums.saveAsTextFile("Output"), Recibo el siguiente error: Py4JJavaError: An error ...

2 la respuesta

Pyspark Vector escaso

Me gustaría encontrar un método eficiente para crear vectores de repuesto en PySpark utilizando marcos de datos. Digamos dada la entrada transaccional: df = spark.createDataFrame([ (0, "a"), (1, "a"), (1, "b"), (1, "c"), (2, "a"), (2, "b"), (2, ...

2 la respuesta

Relleno en un marco de datos Pyspark

Tengo un marco de datos Pyspark (Marco de datos original) con los siguientes datos (todas las columnas tienencuerdatipo de datos): id Value 1 103 2 1504 3 1Necesito crear un nuevomarco de datos modificadoconrellenoenvalorcolumna, por lo que la ...

2 la respuesta

Cambie la marca de tiempo al formato UTC en Pyspark

Tengo un marco de datos de entrada (ip_df), los datos en este marco de datos son los siguientes: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Necesito crear un nuevo marco de datos ...

2 la respuesta

Pyspark: matriz de conversión con estructura anidada a cadena

Tengo el marco de datos pyspark con una columna llamadaFiltros: "matriz>" Quiero guardar mi marco de datos en un archivo csv, para eso necesito convertir la matriz al tipo de cadena. Traté de lanzarlo:DF.Filters.tostring() ...

2 la respuesta

¿Cómo evitar archivos vacíos al escribir archivos de parquet?

Estoy leyendo de la cola de Kafka usando la transmisión de estructura Spark. Después de leer de Kafka, estoy aplicando filtro en el marco de datos. Este marco de datos filtrado lo estoy diciendo en un archivo de parquet., Esto está generando ...

2 la respuesta

Columna Spark Dataframe con el último carácter de otra columna

Estoy buscando una manera de obtener el último carácter de una cadena en una columna de marco de datos y colocarlo en otra columna. Tengo un marco de datos de Spark que se ve así: animal ====== cat mouse snakeQuiero algo como esto: lastchar ...

2 la respuesta

PySpark: obtenga el número de fila para cada fila de un grupo

Con pyspark, me gustaría poder agrupar un marco de datos de chispa, ordenar el grupo y luego proporcionar un número de fila. Entonces Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se convertiría Group Date row_num A 2000 0 A 2002 1 A 2007 2 B ...

3 la respuesta

¿Cómo convertir la columna con el tipo de cadena al formulario int en el marco de datos pyspark?

Tengo un marco de datos en pyspark. Algunas de sus columnas numéricas contienen 'nan', así que cuando estoy leyendo los datos y comprobando el esquema del marco de datos, esas columnas tendrán el tipo 'cadena'. Cómo puedo cambiarlos a tipo int. ...