Resultados de la búsqueda a petición "pyspark"

1 la respuesta

Error al usar la tabla INSERT INTO ON DUPLICATE KEY, utilizando una matriz de bucle for

Estoy trabajando en actualizar una base de datos mysql usando pyspark framework y ejecutándome en los servicios de AWS Glue. Tengo un marco de datos de la siguiente manera: df2= sqlContext.createDataFrame([("xxx1","81A01","TERR ...

1 la respuesta

Aplicar función por grupo en pyspark -pandas_udf (Ningún módulo llamado pyarrow)

Estoy tratando de aplicar una función a cada grupo de un conjunto de datos en pyspark. El primer error que recibí fue Py4JError: An error occurred while calling o62.__getnewargs__. Trace: py4j.Py4JException: Method __getnewargs__([]) does not ...

1 la respuesta

getExecutorMemoryStatus (). size () no genera el número correcto de ejecutores

En brev, Necesito el número de ejecutores / trabajadores en el clúster Spark, pero usandosc._jsc.sc().getExecutorMemoryStatus().size() me da 1 cuando, de hecho, hay 12 ejecutores. Con más detalles, Estoy tratando de determinar el número de ...

1 la respuesta

Especifique cambios en el tipo de datos de varias columnas a diferentes tipos de datos en pyspark

Tengo un DataFrame df) que consta de más de 50 columnas y diferentes tipos de tipos de datos, como df3.printSchema() CtpJobId: string (nullable = true) |-- TransformJobStateId: string (nullable = true) |-- LastError: string (nullable = true) ...

1 la respuesta

¿Cómo transformar flujos estructurados con P, ySpark?

Parece que esto debería ser obvio, pero al revisar los documentos y ejemplos, no estoy seguro de poder encontrar una manera de tomar una secuencia estructurada y transformarla usando PySpark. Por ejemplo from pyspark.sql import SparkSession ...

5 la respuesta

PySpark Dataframe del Diccionario Python sin Pandas

Estoy tratando de convertir el siguiente Pythondict en PySpark DataFrame pero no obtengo el resultado esperado. dict_lst = {'letters': ['a', 'b', 'c'], 'numbers': [10, 20, 30]} df_dict = sc.parallelize([dict_lst]).toDF() # Result not as ...

1 la respuesta

¿Cómo imprimir la ruta / reglas de decisión utilizadas para predecir la muestra de una fila específica en PySpark?

¿Cómo imprimir la ruta de decisión de una muestra específica en un Spark DataFrame? Spark Version: '2.3.1' El siguiente código imprime la ruta de decisión de todo el modelo, ¿cómo hacer que imprima una ruta de decisión de una ...

1 la respuesta

StandardScaler en Spark no funciona como se esperaba

Cualquier idea de por qué spark haría esto paraStandardScaler? Según la definición deStandardScaler: El StandardScaler estandariza un conjunto de características para tener una media cero y una desviación estándar de 1. La bandera withStd ...

1 la respuesta

Comprender el cierre en chispa

En los modos de clúster, cómo escribir una función de cierref para permitir que cada trabajador acceda a la copia de la variableN. N=5 lines=sc.parallelize(['early radical', 'french revolution','pejorative way', 'violent means']) def f1(line): ...

1 la respuesta

Crear una matriz de indicadores basada en los valores de columna de otro marco de datos en PySpark

Tengo dos marcos de datos:df1 +---+-----------------+ |id1| items1| +---+-----------------+ | 0| [B, C, D, E]| | 1| [E, A, C]| | 2| [F, A, E, B]| | 3| [E, G, A]| | 4| [A, C, E, B, D]| +---+-----------------+ ydf2: +---+-----------------+ |id2| ...