Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

Cómo resolver SPARK-5063 en funciones de mapa anidadas

Las transformaciones y acciones de RDD solo pueden ser invocadas por el controlador, no dentro de otras transformaciones; por ejemplo, rdd1.map (x => rdd2.values.count () * x) no es válido porque la transformación de valores y la acción de conteo ...

2 la respuesta

Usando spark-submit, ¿cuál es el comportamiento de la opción --total-executeor-cores?

Estoy ejecutando un grupo de chispas sobre código C ++ envuelto en python. Actualmente estoy probando diferentes configuraciones de opciones de subprocesos múltiples (a nivel de Python o nivel de Spark). Estoy usando spark con binarios ...

1 la respuesta

Spark streaming de datos compartidos entre lotes

Spark Stream procesa los datos en micro lotes. Cada intervalo de datos se procesa en paralelo utilizando RDD sin compartir datos entre cada intervalo. Pero mi caso de uso necesita compartir los datos entre intervalos. Considera elRed ...

5 la respuesta

java.lang.NoSuchMethodError Jackson databind y Spark

Estoy tratando de ejecutar spark-submit con Spark 1.1.0 y Jackson 2.4.4. Tengo un código scala que usa Jackson para deserializar JSON en clases de casos. Eso funciona bien por sí solo, pero cuando lo uso con chispa me sale el ...

4 la respuesta

UnsatisfiedLinkError: no snappyjava en java.library.path cuando se ejecuta la prueba de unidad Spark MLLib dentro de Intellij

La siguiente excepción ocurre cuando se ejecuta una prueba de unidad de chispa que requiere compresión rápida: java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) ...

3 la respuesta

¿Cómo imprimir elementos de una partición RDD particular en Spark?

¿Cómo imprimir los elementos de una partición particular, digamos 5to, solo? val distData = sc.parallelize(1 to 50, 10)

1 la respuesta

Spark RDD crear en el archivo s3

Estoy tratando de crear JAVARDD en el archivo s3 pero no puedo crear rdd. ¿Puede alguien ayudarme a resolver este problema? Código: SparkConf conf = new SparkConf().setAppName(appName).setMaster("local"); JavaSparkContext javaSparkContext = new ...

4 la respuesta

reduceByKey: ¿Cómo funciona internamente?

Soy nuevo en Spark y Scala. Estaba confundido sobre la forma en que funciona la función reduceByKey en Spark. Supongamos que tenemos el siguiente código: val lines = sc.textFile("data.txt") val pairs = lines.map(s => (s, 1)) val counts = ...

3 la respuesta

El inicio del modo Apache Spark YARN lleva demasiado tiempo (más de 10 segundos)

Estoy ejecutando una aplicación de chispa con el modo YARN-client o YARN-cluster. Pero parece que lleva demasiado tiempo iniciar. Se tarda más de 10 segundos en inicializar el contexto de chispa. ¿Esto es normal? ¿O puede ser optimizado? El ...

4 la respuesta

¿Cómo transformar una variable categórica en Spark en un conjunto de columnas codificadas como {0,1}?

Estoy tratando de realizar una regresión logística (LogisticRegressionWithLBFGS) con Spark MLlib (con Scala) en un conjunto de datos que contiene variables categóricas. Descubrí que Spark no pudo trabajar con ese tipo de variable. En R hay una ...