Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Chispa en problemas de carga de tarros

Estoy tratando de ejecutar un programa simple Map / Reduce java usando spark over yarn (Cloudera Hadoop 5.2 en CentOS). He intentado esto de 2 maneras diferentes. La primera forma es la ...

1 la respuesta

Problema con UDF en una columna de Vectores en PySpark DataFrame

Tengo problemas para usar un UDF en una columna de Vectores en PySpark que se puede ilustrar aquí: from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions import udf ...

2 la respuesta

Ejecución simultánea de trabajos en Spark

He usado datos de entrada con el siguiente formato: 0 1 2 3 4 5 … 14 Input Location: hdfs://localhost:9000/Input/datasourceHe usado el siguiente fragmento de código para guardar RDD como archivo de texto usando múltiples hilos: package ...

13 la respuesta

NoClassDefFoundError com.apache.hadoop.fs.FSDataInputStream cuando ejecuta spark-shell

He descargado la versión precompilación de spark 1.4.0 sin hadoop (con Haddop proporcionado por el usuario). Cuando ejecuté el comando spark-shell, recibí este error: > Exception in thread "main" ...

1 la respuesta

Spark rdd escribir en la lista global

¿Cómo escribir en una lista global con rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Cuando intento imprimir Li, el resultado es: [] Lo que intento hacer es transformar otra escucha global Li1 mientras ...

1 la respuesta

¿Cómo filtrar dstream usando la operación de transformación y RDD externo?

solíatransform método en un caso de uso similar al descrito enOperación de transformaciónSección deTransformaciones en DStreams [https://spark.apache.org/docs/1.4.0/streaming-programming-guide.html#transformations-on-dstreams] : spamInfoRDD = ...

2 la respuesta

¿Por qué el portátil Zeppelin no puede conectarse a S3?

He instaladozepelín [https://github.com/apache/incubator-zeppelin], en mi máquina aws EC2 para conectarme a mi grupo de chispas. Versión Spark: Independiente: spark-1.2.1-bin-hadoop1.tgz Puedo conectarme al grupo de chispas pero obtengo el ...

3 la respuesta

Cómo escapar de los nombres de columna con guión en Spark SQL

Importé un archivo json en Spark y lo convertí en una tabla como myDF.registerTempTable("myDF")Luego quiero ejecutar consultas SQL en esta tabla resultante val newTable = sqlContext.sql("select column-1 from myDF")Sin embargo, esto me da un ...

12 la respuesta

El informe de aplicación para application_ (estado: ACEPTADO) nunca termina para Spark Submit (con Spark 1.2.0 en YARN)

Estoy ejecutando la aplicación kinesis plus spark https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html [https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html] Estoy corriendo como abajo comando en la instancia ...

1 la respuesta

Guardar y sobrescribir un archivo en Spark Scala

Tengo un archivo de texto donde mi primera columna se representa con el nombre de la tabla y la segunda columna se representa con la fecha. El delimitador entre dos columnas está representado por el espacio. Los datos se representan de la ...