Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Apache Drill vs Spark

Tengo cierta experiencia con Apache Spark y Spark-SQL. Recientemente encontré el proyecto Apache Drill. ¿Podría describirme cuáles son las ventajas / diferencias más significativas entre ellos? Ya he leidoAnálisis rápido de Hadoop ...

1 la respuesta

Spark MLlib - train Advertencia explícita

Sigo viendo estas advertencias cuando usotrainImplicit: WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB.Y luego el tamaño de la tarea comienza a aumentar. traté de ...

2 la respuesta

cómo lidicar con el error SPARK-5063 en chispa. ¿Cómo lidiar con la chispas de error? SPARK-5063 en Spandear????!!!!!!!!!?!!!!!!?!! ¡!

Recibo el mensaje de error SPARK-5063 en la línea de println val d.foreach{x=> for(i<-0 until x.length) println(m.lookup(x(i)))}d esRDD[Array[String]] m esRDD[(String, String)] . ¿Hay alguna forma de imprimir como yo quiero? o cómo puedo ...

6 la respuesta

Apache Spark: la conexión JDBC no funciona

También he hecho esta pregunta anteriormente, pero no obtuve ninguna respuesta ( No se puede conectar a postgres usando jdbc en pyspark ...

3 la respuesta

Pyspark py4j PickleException: "argumentos cero esperados para la construcción de ClassDict"

Esta pregunta está dirigida a personas familiarizadas con py4j, y puede ayudar a resolver un error de decapado. Estoy tratando de agregar un método al pyspark PythonMLLibAPI que acepta un RDD de una tupla con nombre, hace algún trabajo y devuelve ...

3 la respuesta

Comprender el almacenamiento en caché de Spark

Estoy tratando de entender cómo funciona el caché de Spark. Aquí está mi comprensión ingenua, por favor avíseme si me falta algo: val rdd1 = sc.textFile("some data") rdd1.cache() //marks rdd1 as cached val rdd2 = rdd1.filter(...) val rdd3 = ...

1 la respuesta

cómo interpretar RDD.treeAggregate

Me encontré conesta línea [https://github.com/apache/spark/blob/01f09b161217193b797c8c85969d17054c958615/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L236-L248] en el código fuente de Apache Spark val ...

4 la respuesta

Cálculo de los promedios para cada CLAVE en un RDD por pares (K, V) en Spark con Python

Quiero compartir esta solución particular de Apache Spark con Python porque la documentación es bastante pobre. Quería calcular el valor promedio de los pares K / V (almacenados en un RDD por pares), por CLAVE. Así es como se ven los datos de ...

4 la respuesta

java.sql.SQLException: no se encontró un controlador adecuado al cargar DataFrame en Spark SQL

Me encuentro con un problema muy extraño al intentar cargar JDBC DataFrame en Spark SQL. He probado varios clústeres de Spark: HILO, clúster independiente y modo pseudo distribuido en mi computadora portátil. Es reproducible en Spark 1.3.0 y ...

8 la respuesta

Obtenga CSV para Spark Dataframe

Estoy usando python en Spark y me gustaría obtener un csv en un marco de datos. losdocumentación [https://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources] para Spark SQL extrañamente no proporciona explicaciones para CSV ...