Resultados de la búsqueda a petición "pyspark"

¿Cuál es el recuento máximo de columnas de Spark Dataframe? Intenté obtenerlo de la documentación del marco de datos pero no pude encontrarlo.

apache-spark-sql arrays apache-spark user-defined-functions

2 la respuesta

Error de chispa: se esperan cero argumentos para la construcción de ClassDict (para numpy.core.multiarray._reconstruct)

Tengo un marco de datos en Spark en el que una de las columnas contiene una matriz. Ahora, he escrito un UDF separado que convierte la matriz en otra matriz con valores distintos solo en ella. Ver ejemplo a continuación: Ex:[24,23,27,23]debería ...

apache-spark apache-spark-sql

1 la respuesta

Descargue los datos de carga y agregue el nombre del archivo como columna del marco de datos

Estoy cargando algunos datos en Spark con una función de contenedor: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...

python apache-spark dataframe apache-spark-sql

3 la respuesta

Recupere los primeros n en cada grupo de un DataFrame en pyspark

Hay un DataFrame en pyspark con los siguientes datos: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6Lo que espero es devolver 2 registros en cada grupo con el ...

apache-spark apache-spark-1.3 tunneling ssh

1 la respuesta

¿Cómo ver los registros de un trabajo de chispa después de que se haya completado y el contexto esté cerrado?

Estoy corriendopyspark, spark 1.3, standalone mode, client mode. Estoy tratando de investigar mi trabajo de chispa mirando los trabajos del pasado y comparándolos. Quiero ver sus registros, los ajustes de configuración bajo los cuales se ...

python pyspark-sql apache-spark apache-spark-sql

1 la respuesta

La canalización de Spark ML causa java.lang.Exception: no se pudo compilar ... El código ... crece más allá de 64 KB

Con Spark 2.0, estoy tratando de ejecutar un VectorAssembler simple en una tubería pyspark ML, así: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...

machine-learning hyperparameters python apache-spark-ml

2 la respuesta

Pyspark: obtenga todos los parámetros de los modelos creados con ParamGridBuilder

Estoy usando PySpark 2.0 para una competencia de Kaggle. Me gustaría saber el comportamiento de un modelo (RandomForest) dependiendo de diferentes parámetros.ParamGridBuilder() permite especificar diferentes valores para un solo parámetro, y ...

apache-spark apache-spark-sql spark-streaming spark-dataframe

2 la respuesta

Cómo guardar / insertar cada DStream en una tabla permanente

He estado enfrentando un problema con "Spark Streaming" sobre la inserción de la salida Dstream en unpermanente Tabla SQL. Me gustaría insertar cada salida DStream (proveniente de un solo lote que genera procesos) en una tabla única. He estado ...

python yarn apache-spark hadoop

1 la respuesta

¿Cómo funciona Spark en YARN para el uso de memoria Python?

Después de leer la documentación, no entiendo cómo funciona Spark en YARN para el consumo de memoria de Python. ¿Cuenta paraspark.executor.memory, spark.executor.memoryOverhead ¿o donde? En particular, tengo una aplicación PySpark ...

distinct

2 la respuesta

¿Cómo obtener filas distintas en el marco de datos usando pyspark?

Entiendo que esta es solo una pregunta muy simple y que muy probablemente haya sido respondida en alguna parte, pero como principiante todavía no la entiendo y estoy buscando tu iluminación, gracias de antemano: Tengo un marco de datos ...

Página 6 de 46

4 567 8

Resultados de la búsqueda a petición "pyspark"

Spark Dataframe Recuento máximo de columnas

Error de chispa: se esperan cero argumentos para la construcción de ClassDict (para numpy.core.multiarray._reconstruct)

Descargue los datos de carga y agregue el nombre del archivo como columna del marco de datos

Etiquetas Populares

Recupere los primeros n en cada grupo de un DataFrame en pyspark

¿Cómo ver los registros de un trabajo de chispa después de que se haya completado y el contexto esté cerrado?

La canalización de Spark ML causa java.lang.Exception: no se pudo compilar ... El código ... crece más allá de 64 KB

Pyspark: obtenga todos los parámetros de los modelos creados con ParamGridBuilder

Cómo guardar / insertar cada DStream en una tabla permanente

¿Cómo funciona Spark en YARN para el uso de memoria Python?

¿Cómo obtener filas distintas en el marco de datos usando pyspark?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "pyspark"

Etiquetas Populares