Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Spark SQL no puede completar la escritura de datos de Parquet con una gran cantidad de fragmentos

Estoy tratando de usar Apache Spark SQL para etl json registrar datos en S3 en archivos Parquet también en S3. Mi código es básicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", ...

1 la respuesta

Ejecutar Spark en YARN en modo hilo-clúster: ¿A dónde va la salida de la consola?

Seguí esta página y ejecuté la aplicación de ejemplo SparkPi en YARN en modo hilo-clúster. http://spark.apache.org/docs/latest/running-on-yarn.html [http://spark.apache.org/docs/latest/running-on-yarn.html] No veo la salida del programa al ...

3 la respuesta

Cómo convertir Scala RDD a Map

Tengo un RDD (matriz de cadenas)org.apache.spark.rdd.RDD[String] = MappedRDD[18] y convertirlo en un mapa con Ids únicos. Yo hice 'val vertexMAp = vertices.zipWithUniqueId'pero esto me dio otro RDD de tipo'org.apache.spark.rdd.RDD[(String, ...

4 la respuesta

Ejecutar el ejemplo de spark scala falla

Soy nuevo en Spark y Scala. Creé un proyecto IntelliJ Scala con SBT y agregué algunas líneas a build.sbt. name := "test-one" version := "1.0" scalaVersion := "2.11.2" libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "1.1.0"Mi ...

4 la respuesta

Cómo guardar un archivo en el clúster

Estoy conectado al clúster usandossh y envío el programa al clúster usando spark-submit --master yarn myProgram.pyQuiero guardar el resultado en un archivo de texto e intenté usar las siguientes ...

2 la respuesta

Spark Strutured Streaming convierte automáticamente la marca de tiempo a la hora local

Tengo mi marca de tiempo en UTC e ISO8601, pero usando Structured Streaming, se convierte automáticamente a la hora local. ¿Hay alguna manera de detener esta conversión? Me gustaría tenerlo en UTC. Estoy leyendo datos json de Kafka y luego los ...

1 la respuesta

¿Cómo arreglar chispa horriblemente malinterpretando csv?

Tengo dos archivos csv, uno con palabras clave para películas y otro con elenco y equipo. loskeywords.csv el archivo se ve así: $ head -n 3 keywords.csv id,keywords 862,"[{'id': 931, 'name': 'jealousy'}, {'id': 4290, 'name': 'toy'}, {'id': 5202, ...

1 la respuesta

¿Cómo funciona la partición en Spark?

Estoy tratando de entender cómo se realiza la partición en Apache Spark. ¿Pueden ayudarme por favor? Aquí está el escenario: un maestro y dos nodos con 1 núcleo cada unoun archivocount.txt de 10 MB de tamaño¿Cuántas particiones crea lo ...

1 la respuesta

En Spark, ¿cuál es la forma correcta de tener un objeto estático en todos los trabajadores?

He estado mirando la documentación de Spark y menciona esto: La API de Spark se basa en gran medida en pasar funciones en el programa del controlador para ejecutarse en el clúster. Hay dos formas recomendadas de hacer esto: Sintaxis de función ...

1 la respuesta

Acceso a mesas de colmena en chispa

Tengo la instalación de Hive 0.13 y he creado bases de datos personalizadas. Tengo el clúster de nodo único spark 1.1.0 construido con la opción mvn -hive. Quiero acceder a las tablas en esta base de datos en la aplicación spark ...