Resultados de la búsqueda a petición "pyspark"
chispa: cómo hacer una caída Duplica en un marco de datos mientras mantiene la fila con la marca de tiempo más alta [duplicado]
Esta pregunta ya tiene una respuesta aquí: Encuentre la fila máxima por grupo en Spark DataFrame [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 respuestas Tengo un caso de uso en el que necesitaría eliminar filas ...
pyspark EOFError después de llamar al mapa
Soy nuevo en spark & pyspark. Estoy leyendo un pequeño archivo csv (~ 40k) en un marco de datos. from pyspark.sql import functions as F df ...
Suma operación en PySpark DataFrame dando TypeError cuando el tipo está bien
Tengo ese DataFrame en PySpark (este es el resultado de una toma (3), el marco de datos es muy grande): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]lo mismopropietario Tendrá más ...
¿Qué significa Exception: Randomness of hash of string debe deshabilitarse a través de PYTHONHASHSEED en pyspark?
Estoy tratando de crear un diccionario a partir de una lista en pyspark. Tengo la siguiente lista de listas: rawPositionsDa [[1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', 3.0, 3904.125, 390412.5], [1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', ...
¿Cuál es el equivalente de clase de caso Scala en PySpark?
¿Cómo haría para emplear y / o implementar una clase de caso equivalente en PySpark?
Cómo emitir DataFrame con columnas vectoriales en RDD
Tengo un DataFrame (llamadodf1 en Pyspark en el que una de las columnas es de tipoDenseVector. Este es el esquema del marco de datos. DataFrame[prediction: double, probability: vector, label: double]Intento convertirlo en un RDD usandodf1.rdd ...
pyspark collect_set o collect_list con groupby
Como puedo usarcollect_set ocollect_list en un marco de datos despuésgroupby. por ejemplo:df.groupby('key').collect_set('values'). Me sale un error:AttributeError: 'GroupedData' object has no attribute 'collect_set'
PySpark: múltiples condiciones en la cláusula when
Me gustaría modificar los valores de celda de una columna de marco de datos (Edad) donde actualmente está en blanco y solo lo haría si otra columna (Sobrevivido) tiene el valor 0 para la fila correspondiente donde está en blanco para Edad. Si es ...
Cómo "reducir" múltiples tablas json almacenadas en una columna de un RDD a una sola tabla RDD de la manera más eficiente posible
¿El acceso concurrente para agregar filas usando la unión en un marco de datos usando el siguiente código funcionará correctamente? Actualmente muestra error de tipo from pyspark.sql.types import * schema = StructType([ ...
Reenviar los valores faltantes en Spark / Python
Estoy tratando de completar los valores faltantes en mi marco de datos de Spark con el valor anterior no nulo (si existe). He hecho este tipo de cosas en Python / Pandas pero mis datos son demasiado grandes para Pandas (en un grupo pequeño) y soy ...