Resultados de la búsqueda a petición "apache-spark"
Cómo comprimir dos (o más) DataFrame en Spark
tengo dosDataFrame a yb. a es como Column 1 | Column 2 abc | 123 cde | 23b es como Column 1 1 2Quiero zipa yb (o incluso más) DataFrames que se convierte en algo así como: Column 1 | Column 2 | Column 3 abc | 123 | 1 cde | 23 | 2¿Cómo puedo ...
Aplanar filas en chispa
Estoy haciendo algunas pruebas de chispa usando scala. Por lo general, leemos archivos json que deben manipularse como en el siguiente ejemplo: test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json")¿Cómo puedo convertirlo al ...
¿El mapa no puede ser serializable en scala?
Soy nuevo en Scala. ¿Cómo es que la función "mapa" no es serializable? ¿Cómo hacerlo serializable? Por ejemplo, si mi código es el siguiente: val data = sc.parallelize(List(1,4,3,5,2,3,5)) def myfunc(iter: Iterator[Int]) : Iterator[Int] = { val ...
Ejemplo de métricas de chispa en conteo de palabras
Leí la sección Métricas sobresitio web de chispa [http://spark.apache.org/docs/1.3.1/monitoring.html]. Deseo probarlo en el ejemplo de conteo de palabras, no puedo hacer que funcione. spark / conf / metrics.properties: # Enable CsvSink for all ...
¿Puedo escribir un archivo HDFS (o local) de texto sin formato desde un programa Spark, no desde un RDD?
Tengo un programa Spark (en Scala) y unSparkContext. Estoy escribiendo algunos archivos conRDD'ssaveAsTextFile. En mi máquina local, puedo usar una ruta de archivo local y funciona con el sistema de archivos local. En mi clúster funciona con ...
Lectura de archivos csv en zeppelin usando spark-csv
Quiero leer archivos csv en Zeppelin y me gustaría usar el paquete spark-csv de databricks:https://github.com/databricks/spark-csv [https://github.com/databricks/spark-csv] En el spark-shell, puedo usar spark-csv con spark-shell --packages ...
¿Cómo puedo cambiar la configuración de SparkContext.sparkUser () (en pyspark)?
Soy nuevo conSpark ypyspark. Yo uso pyspark, después de mirdd procesamiento, intenté guardarlo enhdfs utilizando lasaveAsTextfile() función. Pero me sale un 'Permiso denegado'mensaje de error porque pyspark intenta escribirhdfs utilizando mi ...
Spark NullPointerException con saveAsTextFile
Recibo un NPE cuando intento fusionarme y guardar un RDD. El código funciona localmentey funciona en el clúster en el shell scala, pero arroja el error al enviarlo como un trabajo al clúster. Intenté imprimir usando una toma () para ver si el ...
¿Por qué usar un UDF en una consulta SQL conduce a un producto cartesiano?
Yo viDatabricks-Question [https://forums.databricks.com/questions/1907/performance-degradation-when-using-a-custom-udfs-i.html] y no entiendo ¿Por qué el uso de UDF conduce a un producto cartesiano en lugar de una unión externa completa? ...
en Amazon EMR 4.0.0, configurar /etc/spark/conf/spark-env.conf no es efectivo
Estoy lanzando mi hiveserver2 basado en chispas en Amazon EMR, que tiene una dependencia de classpath adicional. Debido a este error en Amazon ...