Resultados de la búsqueda a petición "pyspark"

1 la respuesta

maxCategories no funciona como se esperaba en VectorIndexer cuando se usa RandomForestClassifier en pyspark.ml

Fondo: estoy haciendo una clasificación binaria simple, usando RandomForestClassifier de pyspark.ml. Antes de alimentar los datos al entrenamiento, logré usar VectorIndexer para decidir si las características serían numéricas o categóricas al ...

2 la respuesta

pasando el valor de RDD a otro RDD como variable - Spark #Pyspark [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo obtener un valor del objeto Row en Spark Dataframe? [/questions/37999657/how-to-get-a-value-from-the-row-object-in-spark-dataframe] 3 respuestas Actualmente estoy explorando cómo llamar a grandes ...

3 la respuesta

Procesamiento de columnas eficiente en PySpark

Tengo un marco de datos con una gran cantidad de columnas (> 30000). Lo estoy llenando con1 y0 basado en la primera columna como esta: for column in list_of_column_names: df = df.withColumn(column, when(array_contains(df['list_column'], ...

3 la respuesta

¿Cómo actualizar un marco de datos pyspark con nuevos valores de otro marco de datos?

Tengo dos marcos de datos de chispa: Dataframe A: |col_1 | col_2 | ... | col_n | |val_1 | val_2 | ... | val_n | y marco de datos B: |col_1 | col_2 | ... | col_m | |val_1 | val_2 | ... | val_m | El marco de datos B puede contener filas ...

1 la respuesta

arco de datos pivote de @Pyspark basado en la condición

Tengo un marco de datos enpyspark como abajo df.show() +---+-------+----+ | id| type|s_id| +---+-------+----+ | 1| ios| 11| | 1| ios| 12| | 1| ios| 13| | 1| ios| 14| | 1|android| 15| | 1|android| 16| | 1|android| 17| | 2| ios| 21| | 2|android| ...

3 la respuesta

¿Cómo puedo leer desde S3 en pyspark ejecutándose en modo local?

Estoy usando PyCharm 2018.1 usando Python 3.4 con Spark 2.3 instalado a través de pip en un virtualenv. No hay instalación de hadoop en el host local, por lo que no hay instalación de Spark (por lo tanto, no SPARK_HOME, HADOOP_HOME, ...

1 la respuesta

a función .count () de @ Spark es diferente al contenido del marco de datos cuando se filtra en el campo de registro corrupto

Tengo un trabajo de Spark, escrito en Python, que está obteniendo un comportamiento extraño al verificar los errores en sus datos. A continuación se muestra una versión simplificada: from pyspark.sql import SparkSession from pyspark.sql.types ...

1 la respuesta

`combineByKey`, pyspark [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Quién puede dar una explicación clara de `combineByKey` en Spark? [/questions/33937625/who-can-give-a-clear-explanation-for-combinebykey-in-spark] 1 respuestaApache Spark: ¿Cuál es la implementación ...

2 la respuesta

java.lang.IllegalArgumentException en org.apache.xbean.asm5.ClassReader. <init> (fuente desconocida) con Java 10

Comencé a recibir el siguiente error cada vez que intento recopilar mis rdd. Sucedió después de instalar Java 10.1. Por supuesto, lo saqué y lo reinstalé, el mismo error. Luego instalé Java 9.04 mismo error. Luego arranqué python 2.7.14, apache ...

2 la respuesta

usar el paquete spark cassandra en Azure Data Factory

Creé un script pyspark que funciona bien cuando lo ejecuto conspark-submit: spark-submit --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.6 --conf spark.cassandra.connection.host=12.34.56.68 test_cassandra.pyComo estoy trabajando ...