Resultados de la búsqueda a petición "pyspark"

0 la respuesta

¿Cómo comparar los encabezados de df con otros encabezados de df usando Fuzzy Matching en pyspark?

He creado 3 marcos de datos ejecutando el siguiente código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| He comparado los ...

2 la respuesta

obtenga los primeros N elementos de la columna ArrayType del marco de datos en pyspark

Tengo un marco de datos de chispa con filas como - 1 | [a, b, c] 2 | [d, e, f] 3 | [g, h, i] Ahora quiero conservar solo los primeros 2 elementos de la columna de matriz. 1 | [a, b] 2 | [d, e] 3 | [g, h] ¿Cómo se puede lograr eso? Nota: ...

6 la respuesta

l error @pyspark no existe en el error jvm al inicializar SparkContext

Estoy usando spark over emr y escribiendo un script pyspark, recibo un error al intentar from pyspark import SparkContext sc = SparkContext()este es el error File "pyex.py", line 5, in <module> sc = SparkContext() ...

1 la respuesta

PySpark - Cómo transponer un Dataframe [duplicado]

Esta búsqueda, ya tiene una respuesta aquí: ¿Cómo pivotar DataFrame? [/questions/30244910/how-to-pivot-dataframe] 6 respuestas Quiero transponer un marco de datos. Este es solo un pequeño extracto de mi marco de datos original: from ...

1 la respuesta

Filter array column content

Estoy usando pyspark 2.3.1 y me gustaría filtrar los elementos de la matriz con una expresión y no con udf: >>> df = spark.createDataFrame([(1, "A", [1,2,3,4]), (2, "B", [1,2,3,4,5])],["col1", "col2", "col3"]) >>> ...

2 la respuesta

Python trabajador no pudo conectarse de nuevo

Soy un novato con Spark e intento completar un tutorial de Spark:enlace al tutorial [https://www.youtube.com/watch?v=3CPI2D_QD44&index=4&list=PLot-YkcC7wZ_2sxmRTZr2c121rjcaleqv] Después de instalarlo en la máquina local (Win10 64, Python 3, ...

1 la respuesta

¿Hay alguna manera de enviar trabajos espía en diferentes servidores que ejecutan master

Tenemos el requisito de programar trabajos de chispa, ya que estamos familiarizados con el flujo de aire apache, queremos seguir adelante para crear diferentes flujos de trabajo. Busqué en la web pero no encontré una guía paso a paso para ...

1 la respuesta

Producto cartesiano detectado para INNER unirse en columna literal en PySpark

El siguiente código genera la excepción "Producto cartesiano detectado para la unión INNER": first_df = spark.createDataFrame([{"first_id": "1"}, {"first_id": "1"}, {"first_id": "1"}, ]) second_df = spark.createDataFrame([{"some_value": ...

2 la respuesta

PySpark: ¿Cómo crear un JSON anidado a partir del marco de datos de chispa?

Estoy tratando de crear un json anidado a partir de mi marco de datos de chispa que tiene datos en la siguiente estructura. El siguiente código está creando un json simple con clave y valor. Podrias ayudarme por ...

2 la respuesta

Pyspark eficiente unirse a

He leído mucho sobre cómo hacer combinaciones eficientes en pyspark. Las formas de lograr uniones eficientes que he encontrado son básicamente: Utilice una unión de transmisión si puede. Normalmente no puedo porque los marcos de datos son ...