Resultados de la búsqueda a petición "apache-spark"
Apache Drill vs Spark
Tengo cierta experiencia con Apache Spark y Spark-SQL. Recientemente encontré el proyecto Apache Drill. ¿Podría describirme cuáles son las ventajas / diferencias más significativas entre ellos? Ya he leidoAnálisis rápido de Hadoop ...
Spark MLlib - train Advertencia explícita
Sigo viendo estas advertencias cuando usotrainImplicit: WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB.Y luego el tamaño de la tarea comienza a aumentar. traté de ...
cómo lidicar con el error SPARK-5063 en chispa. ¿Cómo lidiar con la chispas de error? SPARK-5063 en Spandear????!!!!!!!!!?!!!!!!?!! ¡!
Recibo el mensaje de error SPARK-5063 en la línea de println val d.foreach{x=> for(i<-0 until x.length) println(m.lookup(x(i)))}d esRDD[Array[String]] m esRDD[(String, String)] . ¿Hay alguna forma de imprimir como yo quiero? o cómo puedo ...
Apache Spark: la conexión JDBC no funciona
También he hecho esta pregunta anteriormente, pero no obtuve ninguna respuesta ( No se puede conectar a postgres usando jdbc en pyspark ...
Pyspark py4j PickleException: "argumentos cero esperados para la construcción de ClassDict"
Esta pregunta está dirigida a personas familiarizadas con py4j, y puede ayudar a resolver un error de decapado. Estoy tratando de agregar un método al pyspark PythonMLLibAPI que acepta un RDD de una tupla con nombre, hace algún trabajo y devuelve ...
Comprender el almacenamiento en caché de Spark
Estoy tratando de entender cómo funciona el caché de Spark. Aquí está mi comprensión ingenua, por favor avíseme si me falta algo: val rdd1 = sc.textFile("some data") rdd1.cache() //marks rdd1 as cached val rdd2 = rdd1.filter(...) val rdd3 = ...
cómo interpretar RDD.treeAggregate
Me encontré conesta línea [https://github.com/apache/spark/blob/01f09b161217193b797c8c85969d17054c958615/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L236-L248] en el código fuente de Apache Spark val ...
Cálculo de los promedios para cada CLAVE en un RDD por pares (K, V) en Spark con Python
Quiero compartir esta solución particular de Apache Spark con Python porque la documentación es bastante pobre. Quería calcular el valor promedio de los pares K / V (almacenados en un RDD por pares), por CLAVE. Así es como se ven los datos de ...
java.sql.SQLException: no se encontró un controlador adecuado al cargar DataFrame en Spark SQL
Me encuentro con un problema muy extraño al intentar cargar JDBC DataFrame en Spark SQL. He probado varios clústeres de Spark: HILO, clúster independiente y modo pseudo distribuido en mi computadora portátil. Es reproducible en Spark 1.3.0 y ...
Obtenga CSV para Spark Dataframe
Estoy usando python en Spark y me gustaría obtener un csv en un marco de datos. losdocumentación [https://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources] para Spark SQL extrañamente no proporciona explicaciones para CSV ...