Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Funciones de ventana de chispa - rango entre fechas

Estoy teniendo un Spark SQLDataFrame con datos y lo que intento obtener es todas las filas que preceden a la fila actual en un rango de fechas dado. Entonces, por ejemplo, quiero tener todas las filas de 7 días anteriores a la fila dada. Descubrí ...

1 la respuesta

Spark: ¿Cómo mapear Python con Scala o Java Funciones definidas por el usuario?

Digamos, por ejemplo, que mi equipo ha elegido Python como el lenguaje de referencia para desarrollar con Spark. Pero más tarde, por razones de rendimiento, nos gustaría desarrollar bibliotecas específicas de Scala o Java específicas para ...

1 la respuesta

Spark no utiliza todo el núcleo mientras ejecuta LinearRegressionwithSGD

Estoy ejecutando Spark en mi máquina local (16G, 8 núcleos de CPU). Estaba tratando de entrenar el modelo de regresión lineal en un conjunto de datos de tamaño 300 MB. Revisé las estadísticas de la CPU y también los programas que se ejecutan, ...

1 la respuesta

Spark ejecutor en yarn-client no toma la configuración de conteo de núcleo de ejecutor

Independientemente del recuento de núcleos del ejecutor de chispas, el contenedor de hilo para el ejecutor no utiliza más de 1 núcleo.

1 la respuesta

Eliminar particiones vacías de Spark RDD

Estoy obteniendo datos de HDFS y almacenándolos en un Spark RDD. Spark crea el número de particiones en función del número de bloques HDFS. Esto conduce a una gran cantidad de particiones vacías que también se procesan durante la tubería. Para ...

2 la respuesta

Manejo de excepciones no capturadas en Spark

Estoy trabajando en una aplicación Spark Streaming basada en Java que responde a mensajes que llegan a través de un tema de Kafka. Para cada mensaje, la aplicación procesa un poco y escribe los resultados en un tema diferente de Kafka. A veces, ...

1 la respuesta

PySpark en Eclipse: usando PyDev

Estoy ejecutando un código pyspark local desde la línea de comandos y funciona: /Users/edamame/local-lib/apache-spark/spark-1.5.1/bin/pyspark --jars myJar.jar --driver-class-path myJar.jar --executor-memory 2G --driver-memory 4G --executor-cores ...

1 la respuesta

Spark JoinWithCassandraTable en la clave de partición TimeStamp STUCK

Estoy tratando de filtrar en una pequeña parte de una gran tabla C * usando: val snapshotsFiltered = sc.parallelize(startDate to endDate).map(TableKey(_)).joinWithCassandraTable("listener","snapshots_tspark") println("Done Join") //******* //get ...

1 la respuesta

¿Cómo utilizar las funciones analíticas / de ventana en Spark Java?

Estoy tratando de usar la función analítica / ventana last_value en Spark Java. Consulta de Netezza:select sno, name, addr1, addr2, run_dt, last_value(addr1 ignore nulls) over (partition by sno, name, addr1, addr2, run_dt order by beg_ts , ...

1 la respuesta

haciendo spark-shell con mlib, error: object jblas no es miembro de la organización del paquete

En spark-shell, cuando ejecutoimport org.jblas.DoubleMatrix, arrojará "error: el objeto jblas no es miembro de la organización del paquete" en el RHEL. En realidad, busqué en Google "jblas" e instalé "gfortran" ...