Resultados de la búsqueda a petición "apache-spark"
Funciones de ventana de chispa - rango entre fechas
Estoy teniendo un Spark SQLDataFrame con datos y lo que intento obtener es todas las filas que preceden a la fila actual en un rango de fechas dado. Entonces, por ejemplo, quiero tener todas las filas de 7 días anteriores a la fila dada. Descubrí ...
Spark: ¿Cómo mapear Python con Scala o Java Funciones definidas por el usuario?
Digamos, por ejemplo, que mi equipo ha elegido Python como el lenguaje de referencia para desarrollar con Spark. Pero más tarde, por razones de rendimiento, nos gustaría desarrollar bibliotecas específicas de Scala o Java específicas para ...
Spark no utiliza todo el núcleo mientras ejecuta LinearRegressionwithSGD
Estoy ejecutando Spark en mi máquina local (16G, 8 núcleos de CPU). Estaba tratando de entrenar el modelo de regresión lineal en un conjunto de datos de tamaño 300 MB. Revisé las estadísticas de la CPU y también los programas que se ejecutan, ...
Spark ejecutor en yarn-client no toma la configuración de conteo de núcleo de ejecutor
Independientemente del recuento de núcleos del ejecutor de chispas, el contenedor de hilo para el ejecutor no utiliza más de 1 núcleo.
Eliminar particiones vacías de Spark RDD
Estoy obteniendo datos de HDFS y almacenándolos en un Spark RDD. Spark crea el número de particiones en función del número de bloques HDFS. Esto conduce a una gran cantidad de particiones vacías que también se procesan durante la tubería. Para ...
Manejo de excepciones no capturadas en Spark
Estoy trabajando en una aplicación Spark Streaming basada en Java que responde a mensajes que llegan a través de un tema de Kafka. Para cada mensaje, la aplicación procesa un poco y escribe los resultados en un tema diferente de Kafka. A veces, ...
PySpark en Eclipse: usando PyDev
Estoy ejecutando un código pyspark local desde la línea de comandos y funciona: /Users/edamame/local-lib/apache-spark/spark-1.5.1/bin/pyspark --jars myJar.jar --driver-class-path myJar.jar --executor-memory 2G --driver-memory 4G --executor-cores ...
Spark JoinWithCassandraTable en la clave de partición TimeStamp STUCK
Estoy tratando de filtrar en una pequeña parte de una gran tabla C * usando: val snapshotsFiltered = sc.parallelize(startDate to endDate).map(TableKey(_)).joinWithCassandraTable("listener","snapshots_tspark") println("Done Join") //******* //get ...
¿Cómo utilizar las funciones analíticas / de ventana en Spark Java?
Estoy tratando de usar la función analítica / ventana last_value en Spark Java. Consulta de Netezza:select sno, name, addr1, addr2, run_dt, last_value(addr1 ignore nulls) over (partition by sno, name, addr1, addr2, run_dt order by beg_ts , ...
haciendo spark-shell con mlib, error: object jblas no es miembro de la organización del paquete
En spark-shell, cuando ejecutoimport org.jblas.DoubleMatrix, arrojará "error: el objeto jblas no es miembro de la organización del paquete" en el RHEL. En realidad, busqué en Google "jblas" e instalé "gfortran" ...