Resultados de la búsqueda a petición "pyspark"
Error al usar la tabla INSERT INTO ON DUPLICATE KEY, utilizando una matriz de bucle for
Estoy trabajando en actualizar una base de datos mysql usando pyspark framework y ejecutándome en los servicios de AWS Glue. Tengo un marco de datos de la siguiente manera: df2= sqlContext.createDataFrame([("xxx1","81A01","TERR ...
Aplicar función por grupo en pyspark -pandas_udf (Ningún módulo llamado pyarrow)
Estoy tratando de aplicar una función a cada grupo de un conjunto de datos en pyspark. El primer error que recibí fue Py4JError: An error occurred while calling o62.__getnewargs__. Trace: py4j.Py4JException: Method __getnewargs__([]) does not ...
getExecutorMemoryStatus (). size () no genera el número correcto de ejecutores
En brev, Necesito el número de ejecutores / trabajadores en el clúster Spark, pero usandosc._jsc.sc().getExecutorMemoryStatus().size() me da 1 cuando, de hecho, hay 12 ejecutores. Con más detalles, Estoy tratando de determinar el número de ...
Especifique cambios en el tipo de datos de varias columnas a diferentes tipos de datos en pyspark
Tengo un DataFrame df) que consta de más de 50 columnas y diferentes tipos de tipos de datos, como df3.printSchema() CtpJobId: string (nullable = true) |-- TransformJobStateId: string (nullable = true) |-- LastError: string (nullable = true) ...
¿Cómo transformar flujos estructurados con P, ySpark?
Parece que esto debería ser obvio, pero al revisar los documentos y ejemplos, no estoy seguro de poder encontrar una manera de tomar una secuencia estructurada y transformarla usando PySpark. Por ejemplo from pyspark.sql import SparkSession ...
PySpark Dataframe del Diccionario Python sin Pandas
Estoy tratando de convertir el siguiente Pythondict en PySpark DataFrame pero no obtengo el resultado esperado. dict_lst = {'letters': ['a', 'b', 'c'], 'numbers': [10, 20, 30]} df_dict = sc.parallelize([dict_lst]).toDF() # Result not as ...
¿Cómo imprimir la ruta / reglas de decisión utilizadas para predecir la muestra de una fila específica en PySpark?
¿Cómo imprimir la ruta de decisión de una muestra específica en un Spark DataFrame? Spark Version: '2.3.1' El siguiente código imprime la ruta de decisión de todo el modelo, ¿cómo hacer que imprima una ruta de decisión de una ...
StandardScaler en Spark no funciona como se esperaba
Cualquier idea de por qué spark haría esto paraStandardScaler? Según la definición deStandardScaler: El StandardScaler estandariza un conjunto de características para tener una media cero y una desviación estándar de 1. La bandera withStd ...
Comprender el cierre en chispa
En los modos de clúster, cómo escribir una función de cierref para permitir que cada trabajador acceda a la copia de la variableN. N=5 lines=sc.parallelize(['early radical', 'french revolution','pejorative way', 'violent means']) def f1(line): ...
Crear una matriz de indicadores basada en los valores de columna de otro marco de datos en PySpark
Tengo dos marcos de datos:df1 +---+-----------------+ |id1| items1| +---+-----------------+ | 0| [B, C, D, E]| | 1| [E, A, C]| | 2| [F, A, E, B]| | 3| [E, G, A]| | 4| [A, C, E, B, D]| +---+-----------------+ ydf2: +---+-----------------+ |id2| ...