Resultados de la búsqueda a petición "apache-spark"
Cómo resolver SPARK-5063 en funciones de mapa anidadas
Las transformaciones y acciones de RDD solo pueden ser invocadas por el controlador, no dentro de otras transformaciones; por ejemplo, rdd1.map (x => rdd2.values.count () * x) no es válido porque la transformación de valores y la acción de conteo ...
Usando spark-submit, ¿cuál es el comportamiento de la opción --total-executeor-cores?
Estoy ejecutando un grupo de chispas sobre código C ++ envuelto en python. Actualmente estoy probando diferentes configuraciones de opciones de subprocesos múltiples (a nivel de Python o nivel de Spark). Estoy usando spark con binarios ...
Spark streaming de datos compartidos entre lotes
Spark Stream procesa los datos en micro lotes. Cada intervalo de datos se procesa en paralelo utilizando RDD sin compartir datos entre cada intervalo. Pero mi caso de uso necesita compartir los datos entre intervalos. Considera elRed ...
java.lang.NoSuchMethodError Jackson databind y Spark
Estoy tratando de ejecutar spark-submit con Spark 1.1.0 y Jackson 2.4.4. Tengo un código scala que usa Jackson para deserializar JSON en clases de casos. Eso funciona bien por sí solo, pero cuando lo uso con chispa me sale el ...
UnsatisfiedLinkError: no snappyjava en java.library.path cuando se ejecuta la prueba de unidad Spark MLLib dentro de Intellij
La siguiente excepción ocurre cuando se ejecuta una prueba de unidad de chispa que requiere compresión rápida: java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) ...
¿Cómo imprimir elementos de una partición RDD particular en Spark?
¿Cómo imprimir los elementos de una partición particular, digamos 5to, solo? val distData = sc.parallelize(1 to 50, 10)
Spark RDD crear en el archivo s3
Estoy tratando de crear JAVARDD en el archivo s3 pero no puedo crear rdd. ¿Puede alguien ayudarme a resolver este problema? Código: SparkConf conf = new SparkConf().setAppName(appName).setMaster("local"); JavaSparkContext javaSparkContext = new ...
reduceByKey: ¿Cómo funciona internamente?
Soy nuevo en Spark y Scala. Estaba confundido sobre la forma en que funciona la función reduceByKey en Spark. Supongamos que tenemos el siguiente código: val lines = sc.textFile("data.txt") val pairs = lines.map(s => (s, 1)) val counts = ...
El inicio del modo Apache Spark YARN lleva demasiado tiempo (más de 10 segundos)
Estoy ejecutando una aplicación de chispa con el modo YARN-client o YARN-cluster. Pero parece que lleva demasiado tiempo iniciar. Se tarda más de 10 segundos en inicializar el contexto de chispa. ¿Esto es normal? ¿O puede ser optimizado? El ...
¿Cómo transformar una variable categórica en Spark en un conjunto de columnas codificadas como {0,1}?
Estoy tratando de realizar una regresión logística (LogisticRegressionWithLBFGS) con Spark MLlib (con Scala) en un conjunto de datos que contiene variables categóricas. Descubrí que Spark no pudo trabajar con ese tipo de variable. En R hay una ...