Resultados de la búsqueda a petición "apache-spark"
Spark MLlib LDA, ¿cómo inferir la distribución de temas de un nuevo documento invisible?
Estoy interesado en aplicar el modelado de temas LDA usando Spark MLlib. He comprobado el código y las explicaciones enaquí [http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-lda] pero no pude encontrar cómo ...
Pasar funciones de clase a PySpark RDD
Tengo una clase llamada some_class () en un archivo de Python aquí: /some-folder/app/bin/file.pyLo estoy importando a mi código aquí: /some-folder2/app/code/file2.pyPor import sys sys.path.append('/some-folder/app/bin') from file import ...
¿Funciona el pushdown de predicado de chispa con JDBC?
De acuerdo aesta [https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html] Catalyst aplica optimizaciones lógicas como el pushdown de predicados. El optimizador puede insertar predicados de filtro ...
Cómo configurar Zeppelin para que funcione con el clúster remoto de hilos EMR
Tengo el clúster Amazon EMR Hadoop v2.6 con Spark 1.4.1, con el administrador de recursos Yarn. Quiero implementar Zeppelin en una máquina separada para permitir apagar el clúster EMR cuando no hay trabajos en ejecución. Traté de seguir las ...
SparkSQL - ¿Función de retraso?
Veo en estoPublicación de DataBricks [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , hay soporte para funciones de ventana en SparkSql, en particular estoy tratando de usar la función de ventana lag ...
Problema de memoria con transmisión estructurada por chispa
Estoy enfrentando problemas de memoria al ejecutar una secuencia estructurada con agregación y particionamiento en Spark 2.2.0: session .readStream() .schema(inputSchema) .option(OPTION_KEY_DELIMITER, OPTION_VALUE_DELIMITER_TAB) ...
Scala Spark: divide la columna de vector en columnas separadas en un Spark DataFrame
Tengo un Spark DataFrame donde tengo una columna con valores vectoriales. Los valores vectoriales son todos n-dimensionales, es decir, con la misma longitud. También tengo una lista de nombres de columnaArray("f1", "f2", "f3", ..., "fn"), cada ...
¿Cómo usar la consulta SQL para definir la tabla en dbtable?
EnJDBC a otras bases de datos [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] Encontré la siguiente explicación dedbtable parámetro: La tabla JDBC que debe leerse. Tenga en cuenta que se puede usar ...
¿Qué son los trabajadores, ejecutores, núcleos en el clúster independiente de Spark?
Yo leoDescripción general del modo de clúster [http://spark.apache.org/docs/latest/cluster-overview.html]y todavía no puedo entender los diferentes procesos en elClúster autónomo de chispay el paralelismo. ¿Es el trabajador un proceso JVM o no? ...
La regresión logística de la tubería Spark ML produce predicciones mucho peores que R GLM
Utilicé ML PipeLine para ejecutar modelos de regresión logística, pero por algunas razones obtuve peores resultados que R. Hice algunas investigaciones y la única publicación que encontré que está relacionada con este problema ...