Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

Spark Streaming: HDFS

No puedo hacer que mi trabajo de Spark transmita archivos "antiguos" de HDFS.Si mi trabajo de Spark está inactivo por alguna razón (por ejemplo, demostración, implementación) pero la escritura / traslado al directorio HDFS es continua, podría ...

1 la respuesta

Almacenamiento en caché de marcos de datos mientras se mantienen las particiones

Estoy en Spark 2.2.0, ejecutándome en EMR. Tengo un gran marco de datosdf (40G más o menos en archivos snappy comprimidos) que se divide por clavesk1 yk2. Cuando consulto pork1 ===v1 o (k1 ===v1 &&k2 ===v2`), puedo ver que solo está consultando ...

2 la respuesta

Spark streaming DStream RDD para obtener el nombre del archivo

Spark streamingtextFileStream yfileStream puede monitorear un directorio y procesar los nuevos archivos en un Dstream RDD. ¿Cómo obtener los nombres de archivo que procesa DStream RDD en ese intervalo en particular?

5 la respuesta

Depuración de aplicaciones de Spark

Estoy tratando de depurar una aplicación Spark en un clúster utilizando un maestro y varios nodos de trabajo. He tenido éxito en la configuración del nodo maestro y los nodos de trabajo utilizando el administrador de clúster independiente de ...

4 la respuesta

Actualización de una columna de marco de datos en chispa

Mirando la nueva API de marco de datos de chispa, no está claro si es posible modificar las columnas del marco de datos. ¿Cómo haría para cambiar un valor en fila?x columnay de un marco de datos? Enpandas esto seríadf.ix[x,y] = ...

1 la respuesta

RDD.union vs SparkContex.union

Cuál es la diferencia entre reduce(lambda x,y: x.union(y), myRDDlist)que llamaRDD.union [http://spark.apache.org/docs/1.2.0/api/scala/index.html#org.apache.spark.rdd.RDD] y sc.union(myRDDlist)que ...

2 la respuesta

escalabilidad de chispa: ¿qué estoy haciendo mal?

Estoy procesando datos con chispa y funciona con un día de datos (40G) pero falla conOOMen una semana de datos: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc = pyspark.sql.SQLContext(sc) ...

3 la respuesta

¿Es posible usar json4s 3.2.11 con Spark 1.3.0?

Spark depende de json4s 3.2.10, pero esta versión tiene varios errores y necesito usar 3.2.11. Agregué dependencia json4s-native 3.2.11 a build.sbt y todo compiló bien. Pero cuando envío mi JAR por chispa, me proporciona ...

5 la respuesta

Apache-Spark: ¿Para qué sirve la taquigrafía map (_._ 2)?

Leí el código fuente de un proyecto, encontré: val sampleMBR = inputMBR.map(_._2).sampleinputMBR Es una tupla. la funciónmapLa definición es: map[U classTag](f:T=>U):RDD[U]parece quemap(_._2) es la abreviatura demap(x => (x._2)). ¿Alguien ...

2 la respuesta

Alucinante: método RDD.zip ()

yo solodescubierto [https://stackoverflow.com/q/29265616/850781]elRDD.zip() [http://spark.apache.org/docs/latest/api/java/org/apache/spark/rdd/RDD.html#zip%28org.apache.spark.rdd.RDD,%20scala.reflect.ClassTag%29] método y no puedo imaginar ...