Resultados de la búsqueda a petición "pyspark"

2 la respuesta

chispa: cómo hacer una caída Duplica en un marco de datos mientras mantiene la fila con la marca de tiempo más alta [duplicado]

Esta pregunta ya tiene una respuesta aquí: Encuentre la fila máxima por grupo en Spark DataFrame [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 respuestas Tengo un caso de uso en el que necesitaría eliminar filas ...

2 la respuesta

pyspark EOFError después de llamar al mapa

Soy nuevo en spark & pyspark. Estoy leyendo un pequeño archivo csv (~ 40k) en un marco de datos. from pyspark.sql import functions as F df ...

1 la respuesta

Suma operación en PySpark DataFrame dando TypeError cuando el tipo está bien

Tengo ese DataFrame en PySpark (este es el resultado de una toma (3), el marco de datos es muy grande): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]lo mismopropietario Tendrá más ...

2 la respuesta

¿Qué significa Exception: Randomness of hash of string debe deshabilitarse a través de PYTHONHASHSEED en pyspark?

Estoy tratando de crear un diccionario a partir de una lista en pyspark. Tengo la siguiente lista de listas: rawPositionsDa [[1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', 3.0, 3904.125, 390412.5], [1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', ...

2 la respuesta

¿Cuál es el equivalente de clase de caso Scala en PySpark?

¿Cómo haría para emplear y / o implementar una clase de caso equivalente en PySpark?

2 la respuesta

Cómo emitir DataFrame con columnas vectoriales en RDD

Tengo un DataFrame (llamadodf1 en Pyspark en el que una de las columnas es de tipoDenseVector. Este es el esquema del marco de datos. DataFrame[prediction: double, probability: vector, label: double]Intento convertirlo en un RDD usandodf1.rdd ...

1 la respuesta

pyspark collect_set o collect_list con groupby

Como puedo usarcollect_set ocollect_list en un marco de datos despuésgroupby. por ejemplo:df.groupby('key').collect_set('values'). Me sale un error:AttributeError: 'GroupedData' object has no attribute 'collect_set'

2 la respuesta

PySpark: múltiples condiciones en la cláusula when

Me gustaría modificar los valores de celda de una columna de marco de datos (Edad) donde actualmente está en blanco y solo lo haría si otra columna (Sobrevivido) tiene el valor 0 para la fila correspondiente donde está en blanco para Edad. Si es ...

0 la respuesta

Cómo "reducir" múltiples tablas json almacenadas en una columna de un RDD a una sola tabla RDD de la manera más eficiente posible

¿El acceso concurrente para agregar filas usando la unión en un marco de datos usando el siguiente código funcionará correctamente? Actualmente muestra error de tipo from pyspark.sql.types import * schema = StructType([ ...

1 la respuesta

Reenviar los valores faltantes en Spark / Python

Estoy tratando de completar los valores faltantes en mi marco de datos de Spark con el valor anterior no nulo (si existe). He hecho este tipo de cosas en Python / Pandas pero mis datos son demasiado grandes para Pandas (en un grupo pequeño) y soy ...