Resultados de la búsqueda a petición "pyspark"

1 la respuesta

Spark Dataframe Recuento máximo de columnas

¿Cuál es el recuento máximo de columnas de Spark Dataframe? Intenté obtenerlo de la documentación del marco de datos pero no pude encontrarlo.

2 la respuesta

Error de chispa: se esperan cero argumentos para la construcción de ClassDict (para numpy.core.multiarray._reconstruct)

Tengo un marco de datos en Spark en el que una de las columnas contiene una matriz. Ahora, he escrito un UDF separado que convierte la matriz en otra matriz con valores distintos solo en ella. Ver ejemplo a continuación: Ex:[24,23,27,23]debería ...

1 la respuesta

Descargue los datos de carga y agregue el nombre del archivo como columna del marco de datos

Estoy cargando algunos datos en Spark con una función de contenedor: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...

3 la respuesta

Recupere los primeros n en cada grupo de un DataFrame en pyspark

Hay un DataFrame en pyspark con los siguientes datos: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6Lo que espero es devolver 2 registros en cada grupo con el ...

1 la respuesta

¿Cómo ver los registros de un trabajo de chispa después de que se haya completado y el contexto esté cerrado?

Estoy corriendopyspark, spark 1.3, standalone mode, client mode. Estoy tratando de investigar mi trabajo de chispa mirando los trabajos del pasado y comparándolos. Quiero ver sus registros, los ajustes de configuración bajo los cuales se ...

1 la respuesta

La canalización de Spark ML causa java.lang.Exception: no se pudo compilar ... El código ... crece más allá de 64 KB

Con Spark 2.0, estoy tratando de ejecutar un VectorAssembler simple en una tubería pyspark ML, así: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...

2 la respuesta

Pyspark: obtenga todos los parámetros de los modelos creados con ParamGridBuilder

Estoy usando PySpark 2.0 para una competencia de Kaggle. Me gustaría saber el comportamiento de un modelo (RandomForest) dependiendo de diferentes parámetros.ParamGridBuilder() permite especificar diferentes valores para un solo parámetro, y ...

2 la respuesta

Cómo guardar / insertar cada DStream en una tabla permanente

He estado enfrentando un problema con "Spark Streaming" sobre la inserción de la salida Dstream en unpermanente Tabla SQL. Me gustaría insertar cada salida DStream (proveniente de un solo lote que genera procesos) en una tabla única. He estado ...

1 la respuesta

¿Cómo funciona Spark en YARN para el uso de memoria Python?

Después de leer la documentación, no entiendo cómo funciona Spark en YARN para el consumo de memoria de Python. ¿Cuenta paraspark.executor.memory, spark.executor.memoryOverhead ¿o donde? En particular, tengo una aplicación PySpark ...

2 la respuesta

¿Cómo obtener filas distintas en el marco de datos usando pyspark?

Entiendo que esta es solo una pregunta muy simple y que muy probablemente haya sido respondida en alguna parte, pero como principiante todavía no la entiendo y estoy buscando tu iluminación, gracias de antemano: Tengo un marco de datos ...