Resultados de la búsqueda a petición "pyspark"

3 la respuesta

¿Cómo puedo leer desde S3 en pyspark ejecutándose en modo local?

Estoy usando PyCharm 2018.1 usando Python 3.4 con Spark 2.3 instalado a través de pip en un virtualenv. No hay instalación de hadoop en el host local, por lo que no hay instalación de Spark (por lo tanto, no SPARK_HOME, HADOOP_HOME, ...

1 la respuesta

arco de datos pivote de @Pyspark basado en la condición

Tengo un marco de datos enpyspark como abajo df.show() +---+-------+----+ | id| type|s_id| +---+-------+----+ | 1| ios| 11| | 1| ios| 12| | 1| ios| 13| | 1| ios| 14| | 1|android| 15| | 1|android| 16| | 1|android| 17| | 2| ios| 21| | 2|android| ...

3 la respuesta

¿Cómo actualizar un marco de datos pyspark con nuevos valores de otro marco de datos?

Tengo dos marcos de datos de chispa: Dataframe A: |col_1 | col_2 | ... | col_n | |val_1 | val_2 | ... | val_n | y marco de datos B: |col_1 | col_2 | ... | col_m | |val_1 | val_2 | ... | val_m | El marco de datos B puede contener filas ...

3 la respuesta

Procesamiento de columnas eficiente en PySpark

Tengo un marco de datos con una gran cantidad de columnas (> 30000). Lo estoy llenando con1 y0 basado en la primera columna como esta: for column in list_of_column_names: df = df.withColumn(column, when(array_contains(df['list_column'], ...

2 la respuesta

pasando el valor de RDD a otro RDD como variable - Spark #Pyspark [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo obtener un valor del objeto Row en Spark Dataframe? [/questions/37999657/how-to-get-a-value-from-the-row-object-in-spark-dataframe] 3 respuestas Actualmente estoy explorando cómo llamar a grandes ...

1 la respuesta

maxCategories no funciona como se esperaba en VectorIndexer cuando se usa RandomForestClassifier en pyspark.ml

Fondo: estoy haciendo una clasificación binaria simple, usando RandomForestClassifier de pyspark.ml. Antes de alimentar los datos al entrenamiento, logré usar VectorIndexer para decidir si las características serían numéricas o categóricas al ...

1 la respuesta

PySpark "explotar" dict en la columna

Tengo una columna 'true_recoms' en el marco de datos de chispa: -RECORD 17----------------------------------------------------------------- item | 20380109 true_recoms | {"5556867":1,"5801144":5,"7397596":21} Necesito 'explotar' esta columna ...

1 la respuesta

pyspark: haga partición de manera eficiente Al escribir en el mismo número de particiones totales que la tabla original

Tuve una pregunta relacionada con pyspark'srepartitionBy()unción @ que publiqué originalmente en un comentario enesta ...

1 la respuesta

count valores en varias columnas que contienen una subcadena basada en cadenas de listas pyspark

Tengo un marco de datos enPyspark como abajo. Quierocountalores @ en dos columnas basadas en algunoslists y llenar nuevas columnas para cadalist df.show() +---+-------------+-------------_+ | id| device| ...

0 la respuesta

a operación @RDD collect () falla con el error "Ningún módulo llamado pyspark"

Estoy intentando ejecutar la operación de recopilación a continuación en RDD, creada a partir de Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aquí hay algunas observaciones de obj_filter, ...