Resultados de la búsqueda a petición "apache-spark"
Trabaje con Jupyter en Windows y Apache Toree Kernel para compatibilidad con Spark
Estoy tratando de instalar el kernel de Apache Toree por compatibilidad de chispas y me encuentro con un extraño mensaje medioambiental. Este es el proceso que seguí: Instale la última versión de Anaconda con Jupyter 4.1.0Ejecutar: pip ...
Obteniendo valores distintos en una columna usando Spark DataFrame
Al usar la versión 1.6.1 de Spark, necesito obtener valores distintos en una columna y luego realizar alguna transformación específica encima. La columna contiene más de 50 millones de registros y puede crecer más. Entiendo que hacer ...
Integre PySpark con Jupyter Notebook
Estoy siguiendo estositio [https://www.dataquest.io/blog/pyspark-installation-guide/]para instalar Jupyter Notebook, PySpark e integrar ambos. Cuando necesitaba crear el "perfil de Jupyter", leí que los "perfiles de Jupyter" ya no existen. ...
SparkR vs sparklyr [cerrado]
¿Alguien tiene una visión general con respecto a las ventajas / desventajas de SparkR vs sparklyr? Google no produce resultados satisfactorios y ambos parecen bastante similares. Al probar ambos, SparkR parece mucho más engorroso, mientras que ...
Spark sql cómo explotar sin perder valores nulos
Tengo un Dataframe que estoy tratando de aplanar. Como parte del proceso, quiero explotarlo, así que si tengo una columna de matrices, cada valor de la matriz se usará para crear una fila separada. Por ejemplo, id | name | likes ...
Spark fusionar / combinar matrices en grupo Por / agregado
El siguiente código de Spark muestra correctamente lo que quiero hacer y genera la salida correcta con un pequeño conjunto de datos de demostración. Cuando ejecuto este mismo tipo general de código en un gran volumen de datos de producción, ...
División de la fila en varias filas en spark-shell
He importado datos en el marco de datos de Spark en spark-shell. Los datos se completan como: Col1 | Col2 | Col3 | Col4 A1 | 11 | B2 | a|b;1;0xFFFFFF A1 | 12 | B1 | 2 A2 | 12 | B2 | 0xFFF45BAquí en Col4, los valores son de diferentes tipos y ...
¿Cómo guardar un DataFrame como CSV comprimido (comprimido)?
Yo uso Spark 1.6.0 y Scala. Quiero guardar un DataFrame como formato CSV comprimido. Esto es lo que tengo hasta ahora (supongo que ya tengodf ysc comoSparkContext): //set the conf to the codec I ...
Apache Spark vs Apache Spark 2 [cerrado]
¿Cuáles son las mejoras que trae Apache Spark2 en comparación con Apache Spark? Desde la perspectiva de la arquitecturaDesde el punto de vista de la aplicacióno más
¿Cómo crear un gráfico de chispa simple usando Java?
Básicamente soy un desarrollador de Java y ahora tuve la oportunidad de trabajar en Spark y revisé los conceptos básicos de la API de Spark como lo que es SparkConfig, SparkContaxt, RDD, SQLContaxt, DataFrame, DataSet y luego pude realizar ...