Resultados de la búsqueda a petición "apache-spark"
Obtenga el valor máximo para cada clave en un Spark RDD
¿Cuál es la mejor manera de devolver la fila máxima (valor) asociada con cada clave única en una chispa RDD? Estoy usando python y probé Math max, mapeo y reducción por claves y agregados. ¿Hay una manera eficiente de hacer esto? Posiblemente un ...
Extraiga la fecha de una columna de cadena que contiene la marca de tiempo en Pyspark
Tengo un marco de datos que tiene una fecha en el siguiente formato: +----------------------+ |date | +----------------------+ |May 6, 2016 5:59:34 AM| +----------------------+Tengo la intención de extraer la fecha de esto en ...
¿Cómo pasar Array [Seq [String]] a apache spark udf? (Error: no aplicable)
Tengo el siguiente apache spark udf en scala: val myFunc = udf { (userBias: Float, otherBiases: Map[Long, Float], userFactors: Seq[Float], context: Seq[String]) => var result = Float.NaN if (userFactors != null) { var contexBias = 0f for (cc <- ...
Prepare la instrucción por lotes para almacenar todo el rdd a mysql generado a partir de la transmisión por chispa
Estoy tratando de insertar los RDD por lotes generados a partir de Dstream usando spark-streaming en mysql. El siguiente código funciona bien, pero el problema es que estoy creando una conexión para almacenar cada tupla. Entonces, para evitar que ...
¿Qué hará la chispa si no tengo suficiente memoria?
Soy nuevo en Spark, y encontré que la Documentación dice que Spark cargará datos en la memoria para hacer que los algoritmos de iteración sean más rápidos.Pe...
Cambiar el nombre de la columna pivotada y agregada en PySpark Dataframe
Con un marco de datos de la siguiente manera: from pyspark.sql.functions import avg, first rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), ...
¿Cuál es una forma optimizada de unir tablas grandes en Spark SQL?
Necesito unir tablas usando Spark SQL o Dataframe API. Necesito saber cuál sería la forma optimizada de lograrlo. El escenario es: Todos los datos están presentes en Hive en formato ORC (marco de datos base y archivos de referencia).Necesito ...
¿Cómo puedo declarar una columna como una característica categórica en un DataFrame para usar en ml
¿Cómo puedo declarar que una columna dada en miDataFrame contiene información categórica? Tengo un Spark SQLDataFrame que cargué de una base de datos. Muchas de las columnas en esteDataFrame tienen información categórica, pero están ...