Resultados de la búsqueda a petición "pyspark"
pyspark: Crear columna MapType a partir de columnas existentes
Necesito crear una nueva columna Spark DF MapType basada en las columnas existentes donde el nombre de la columna es la clave y el valor es el valor. Como ejemplo, tengo este DF: rdd = sc.parallelize([('123k', 1.3, 6.3, 7.6), ('d23d', 1.5, 2.0, ...
(nulo) entrada en la cadena de comando excepción en saveAsTextFile () en Pyspark
Estoy trabajando en PySpark en un cuaderno Jupyter (Python 2.7) en Windows 7. Tengo un RDD de tipopyspark.rdd.PipelinedRDD llamadoidSums. Al intentar ejecutaridSums.saveAsTextFile("Output"), Recibo el siguiente error: Py4JJavaError: An error ...
Pyspark Vector escaso
Me gustaría encontrar un método eficiente para crear vectores de repuesto en PySpark utilizando marcos de datos. Digamos dada la entrada transaccional: df = spark.createDataFrame([ (0, "a"), (1, "a"), (1, "b"), (1, "c"), (2, "a"), (2, "b"), (2, ...
Relleno en un marco de datos Pyspark
Tengo un marco de datos Pyspark (Marco de datos original) con los siguientes datos (todas las columnas tienencuerdatipo de datos): id Value 1 103 2 1504 3 1Necesito crear un nuevomarco de datos modificadoconrellenoenvalorcolumna, por lo que la ...
Cambie la marca de tiempo al formato UTC en Pyspark
Tengo un marco de datos de entrada (ip_df), los datos en este marco de datos son los siguientes: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Necesito crear un nuevo marco de datos ...
Pyspark: matriz de conversión con estructura anidada a cadena
Tengo el marco de datos pyspark con una columna llamadaFiltros: "matriz>" Quiero guardar mi marco de datos en un archivo csv, para eso necesito convertir la matriz al tipo de cadena. Traté de lanzarlo:DF.Filters.tostring() ...
¿Cómo evitar archivos vacíos al escribir archivos de parquet?
Estoy leyendo de la cola de Kafka usando la transmisión de estructura Spark. Después de leer de Kafka, estoy aplicando filtro en el marco de datos. Este marco de datos filtrado lo estoy diciendo en un archivo de parquet., Esto está generando ...
Columna Spark Dataframe con el último carácter de otra columna
Estoy buscando una manera de obtener el último carácter de una cadena en una columna de marco de datos y colocarlo en otra columna. Tengo un marco de datos de Spark que se ve así: animal ====== cat mouse snakeQuiero algo como esto: lastchar ...
PySpark: obtenga el número de fila para cada fila de un grupo
Con pyspark, me gustaría poder agrupar un marco de datos de chispa, ordenar el grupo y luego proporcionar un número de fila. Entonces Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se convertiría Group Date row_num A 2000 0 A 2002 1 A 2007 2 B ...
¿Cómo convertir la columna con el tipo de cadena al formulario int en el marco de datos pyspark?
Tengo un marco de datos en pyspark. Algunas de sus columnas numéricas contienen 'nan', así que cuando estoy leyendo los datos y comprobando el esquema del marco de datos, esas columnas tendrán el tipo 'cadena'. Cómo puedo cambiarlos a tipo int. ...