Resultados de la búsqueda a petición "apache-spark"
Spark Streaming: HDFS
No puedo hacer que mi trabajo de Spark transmita archivos "antiguos" de HDFS.Si mi trabajo de Spark está inactivo por alguna razón (por ejemplo, demostración, implementación) pero la escritura / traslado al directorio HDFS es continua, podría ...
Almacenamiento en caché de marcos de datos mientras se mantienen las particiones
Estoy en Spark 2.2.0, ejecutándome en EMR. Tengo un gran marco de datosdf (40G más o menos en archivos snappy comprimidos) que se divide por clavesk1 yk2. Cuando consulto pork1 ===v1 o (k1 ===v1 &&k2 ===v2`), puedo ver que solo está consultando ...
Spark streaming DStream RDD para obtener el nombre del archivo
Spark streamingtextFileStream yfileStream puede monitorear un directorio y procesar los nuevos archivos en un Dstream RDD. ¿Cómo obtener los nombres de archivo que procesa DStream RDD en ese intervalo en particular?
Depuración de aplicaciones de Spark
Estoy tratando de depurar una aplicación Spark en un clúster utilizando un maestro y varios nodos de trabajo. He tenido éxito en la configuración del nodo maestro y los nodos de trabajo utilizando el administrador de clúster independiente de ...
Actualización de una columna de marco de datos en chispa
Mirando la nueva API de marco de datos de chispa, no está claro si es posible modificar las columnas del marco de datos. ¿Cómo haría para cambiar un valor en fila?x columnay de un marco de datos? Enpandas esto seríadf.ix[x,y] = ...
RDD.union vs SparkContex.union
Cuál es la diferencia entre reduce(lambda x,y: x.union(y), myRDDlist)que llamaRDD.union [http://spark.apache.org/docs/1.2.0/api/scala/index.html#org.apache.spark.rdd.RDD] y sc.union(myRDDlist)que ...
escalabilidad de chispa: ¿qué estoy haciendo mal?
Estoy procesando datos con chispa y funciona con un día de datos (40G) pero falla conOOMen una semana de datos: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc = pyspark.sql.SQLContext(sc) ...
¿Es posible usar json4s 3.2.11 con Spark 1.3.0?
Spark depende de json4s 3.2.10, pero esta versión tiene varios errores y necesito usar 3.2.11. Agregué dependencia json4s-native 3.2.11 a build.sbt y todo compiló bien. Pero cuando envío mi JAR por chispa, me proporciona ...
Apache-Spark: ¿Para qué sirve la taquigrafía map (_._ 2)?
Leí el código fuente de un proyecto, encontré: val sampleMBR = inputMBR.map(_._2).sampleinputMBR Es una tupla. la funciónmapLa definición es: map[U classTag](f:T=>U):RDD[U]parece quemap(_._2) es la abreviatura demap(x => (x._2)). ¿Alguien ...
Alucinante: método RDD.zip ()
yo solodescubierto [https://stackoverflow.com/q/29265616/850781]elRDD.zip() [http://spark.apache.org/docs/latest/api/java/org/apache/spark/rdd/RDD.html#zip%28org.apache.spark.rdd.RDD,%20scala.reflect.ClassTag%29] método y no puedo imaginar ...