Resultados de la búsqueda a petición "apache-spark"
¿Por qué Spark SQL considera que el soporte de índices no es importante?
Citando los Spark DataFrames,Conjuntos de datos y manual de SQL [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Un puñado de optimizaciones de Hive aún no están incluidas en Spark. Algunos ...
Cómo pasar múltiples declaraciones en Spark SQL HiveContext
Por ejemplo, tengo pocas instrucciones Hive HQL que quiero pasar a Spark SQL: set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5;Lo siguiente ...
Comparar columnas en Pyspark
Estoy trabajando en un PySpark DataFrame con n columnas. Tengo un conjunto de m columnas (m <n) y mi tarea es elegir la columna con valores máximos. Por ejemplo: Entrada: PySpark DataFrame que contiene col_1 = [1,2,3], col_2 = [2,1,4], col_3 = ...
Particionamiento por múltiples columnas en Spark SQL
Con las funciones de ventana de Spark SQL, necesito particionar en varias columnas para ejecutar mis consultas de datos, de la siguiente manera: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) Actualmente no tengo un ...
Comparación de dos RDD
Tengo dos RDD [Array [String]], llamémoslas rdd1 y rdd2. Crearía un nuevo RDD que contiene solo las entradas de rdd2 que no están en rdd1 (basado en una clave). Yo uso Spark en Scala a través de Intellij. Agrupé rdd1 y rdd2 por una clave ...
formas de reemplazar groupByKey en apache Spark
Me gustaría saber la mejor manera de reemplazargroupByKeyoperación con otro. Básicamente me gustaría obtener unRDD [(int, Lista [Medida]), mi situación: // consider measures like RDD of objects measures.keyBy(_.getId) .groupByKeyMi idea es ...
¿Cómo cambiar el tipo de columna de String a Date en DataFrames?
Tengo un marco de datos que tiene dos columnas (C, D) definidas como tipo de columna de cadena, pero los datos en las columnas son en realidad fechas. por ejemplo, la columna C tiene la fecha como "01-APR-2015" y la columna D como "20150401" ...
¿Cómo verificar el estado de las aplicaciones Spark desde la línea de comandos?
Para verificar las aplicaciones en ejecución en Apache spark, se pueden verificar desde la interfaz web en la URL: http://<master>:8080 Mi pregunta es cómo podemos verificar la ejecución de aplicaciones desde la terminal, ¿hay algún comando que ...
No se puede importar sqlContext.implicits._ sin un error a través de Jupyter
Cuando trato de usar elimport sqlContext.implicits._ en mi cuaderno Jupyter, aparece el siguiente error: Name: Compile Error Message: <console>:25: error: stable identifier required, but $iwC.this.$VAL10.sqlContext.implicits found. import ...
Spark MLib Decision Trees: ¿Probabilidad de etiquetas por características?
Podría lograr mostrar las probabilidades totales de milabels, por ejemplo, después de mostrar mi árbol de decisión, tengo una tabla: Total Predictions : 65% impressions 30% clicks 5% conversionsPero mi problema es encontrar probabilidades (o ...