Resultados de la búsqueda a petición "apache-spark"
Chispa en problemas de carga de tarros
Estoy tratando de ejecutar un programa simple Map / Reduce java usando spark over yarn (Cloudera Hadoop 5.2 en CentOS). He intentado esto de 2 maneras diferentes. La primera forma es la ...
Problema con UDF en una columna de Vectores en PySpark DataFrame
Tengo problemas para usar un UDF en una columna de Vectores en PySpark que se puede ilustrar aquí: from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions import udf ...
Ejecución simultánea de trabajos en Spark
He usado datos de entrada con el siguiente formato: 0 1 2 3 4 5 … 14 Input Location: hdfs://localhost:9000/Input/datasourceHe usado el siguiente fragmento de código para guardar RDD como archivo de texto usando múltiples hilos: package ...
NoClassDefFoundError com.apache.hadoop.fs.FSDataInputStream cuando ejecuta spark-shell
He descargado la versión precompilación de spark 1.4.0 sin hadoop (con Haddop proporcionado por el usuario). Cuando ejecuté el comando spark-shell, recibí este error: > Exception in thread "main" ...
Spark rdd escribir en la lista global
¿Cómo escribir en una lista global con rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Cuando intento imprimir Li, el resultado es: [] Lo que intento hacer es transformar otra escucha global Li1 mientras ...
¿Cómo filtrar dstream usando la operación de transformación y RDD externo?
solíatransform método en un caso de uso similar al descrito enOperación de transformaciónSección deTransformaciones en DStreams [https://spark.apache.org/docs/1.4.0/streaming-programming-guide.html#transformations-on-dstreams] : spamInfoRDD = ...
¿Por qué el portátil Zeppelin no puede conectarse a S3?
He instaladozepelín [https://github.com/apache/incubator-zeppelin], en mi máquina aws EC2 para conectarme a mi grupo de chispas. Versión Spark: Independiente: spark-1.2.1-bin-hadoop1.tgz Puedo conectarme al grupo de chispas pero obtengo el ...
Cómo escapar de los nombres de columna con guión en Spark SQL
Importé un archivo json en Spark y lo convertí en una tabla como myDF.registerTempTable("myDF")Luego quiero ejecutar consultas SQL en esta tabla resultante val newTable = sqlContext.sql("select column-1 from myDF")Sin embargo, esto me da un ...
El informe de aplicación para application_ (estado: ACEPTADO) nunca termina para Spark Submit (con Spark 1.2.0 en YARN)
Estoy ejecutando la aplicación kinesis plus spark https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html [https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html] Estoy corriendo como abajo comando en la instancia ...
Guardar y sobrescribir un archivo en Spark Scala
Tengo un archivo de texto donde mi primera columna se representa con el nombre de la tabla y la segunda columna se representa con la fecha. El delimitador entre dos columnas está representado por el espacio. Los datos se representan de la ...