Resultados de la búsqueda a petición "apache-spark"
Spark SQL no puede completar la escritura de datos de Parquet con una gran cantidad de fragmentos
Estoy tratando de usar Apache Spark SQL para etl json registrar datos en S3 en archivos Parquet también en S3. Mi código es básicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", ...
Ejecutar Spark en YARN en modo hilo-clúster: ¿A dónde va la salida de la consola?
Seguí esta página y ejecuté la aplicación de ejemplo SparkPi en YARN en modo hilo-clúster. http://spark.apache.org/docs/latest/running-on-yarn.html [http://spark.apache.org/docs/latest/running-on-yarn.html] No veo la salida del programa al ...
Cómo convertir Scala RDD a Map
Tengo un RDD (matriz de cadenas)org.apache.spark.rdd.RDD[String] = MappedRDD[18] y convertirlo en un mapa con Ids únicos. Yo hice 'val vertexMAp = vertices.zipWithUniqueId'pero esto me dio otro RDD de tipo'org.apache.spark.rdd.RDD[(String, ...
Ejecutar el ejemplo de spark scala falla
Soy nuevo en Spark y Scala. Creé un proyecto IntelliJ Scala con SBT y agregué algunas líneas a build.sbt. name := "test-one" version := "1.0" scalaVersion := "2.11.2" libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "1.1.0"Mi ...
Cómo guardar un archivo en el clúster
Estoy conectado al clúster usandossh y envío el programa al clúster usando spark-submit --master yarn myProgram.pyQuiero guardar el resultado en un archivo de texto e intenté usar las siguientes ...
Spark Strutured Streaming convierte automáticamente la marca de tiempo a la hora local
Tengo mi marca de tiempo en UTC e ISO8601, pero usando Structured Streaming, se convierte automáticamente a la hora local. ¿Hay alguna manera de detener esta conversión? Me gustaría tenerlo en UTC. Estoy leyendo datos json de Kafka y luego los ...
¿Cómo arreglar chispa horriblemente malinterpretando csv?
Tengo dos archivos csv, uno con palabras clave para películas y otro con elenco y equipo. loskeywords.csv el archivo se ve así: $ head -n 3 keywords.csv id,keywords 862,"[{'id': 931, 'name': 'jealousy'}, {'id': 4290, 'name': 'toy'}, {'id': 5202, ...
¿Cómo funciona la partición en Spark?
Estoy tratando de entender cómo se realiza la partición en Apache Spark. ¿Pueden ayudarme por favor? Aquí está el escenario: un maestro y dos nodos con 1 núcleo cada unoun archivocount.txt de 10 MB de tamaño¿Cuántas particiones crea lo ...
En Spark, ¿cuál es la forma correcta de tener un objeto estático en todos los trabajadores?
He estado mirando la documentación de Spark y menciona esto: La API de Spark se basa en gran medida en pasar funciones en el programa del controlador para ejecutarse en el clúster. Hay dos formas recomendadas de hacer esto: Sintaxis de función ...
Acceso a mesas de colmena en chispa
Tengo la instalación de Hive 0.13 y he creado bases de datos personalizadas. Tengo el clúster de nodo único spark 1.1.0 construido con la opción mvn -hive. Quiero acceder a las tablas en esta base de datos en la aplicación spark ...