Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Spark: Transponer DataFrame sin agregar

He examinado varias preguntas en línea, pero no parecen hacer lo que intento lograr. Estoy usando Apache Spark 2.0.2 con Scala. Tengo un marco de datos: +----------+-----+----+----+----+----+----+ |segment_id| val1|val2|val3|val4|val5|val6| ...

1 la respuesta

Crear una nueva columna basada en la verificación de fecha

Tengo dos marcos de datos en Scala: df1 = ID Field1 1 AAA 2 BBB 4 CCCy df2 = PK start_date_time 1 2016-10-11 11:55:23 2 2016-10-12 12:25:00 3 2016-10-12 16:20:00También tengo una variablestart_date con el formatoyyyy-MM-dd igual ...

2 la respuesta

Spark Dataframes- Reducción por clave

Digamos que tengo una estructura de datos como esta donde ts es una marca de tiempo case class Record(ts: Long, id: Int, value: Int)Dado un gran número de estos registros, quiero terminar con el registro con la marca de tiempo más alta para cada ...

4 la respuesta

¿Cuál es el significado de los parámetros de la particiónColumn, lowerBound, upperBound, numPartitions?

Al recuperar datos de SQL Server a través de una conexión JDBC en Spark, descubrí que puedo establecer algunos parámetros de paralelización comopartitionColumn, lowerBound, upperBoundynumPartitions. He pasado por documentación de ...

3 la respuesta

¿Cómo servir un modelo Spark MLlib?

Estoy evaluando herramientas para aplicaciones basadas en ML de producción y una de nuestras opciones es Spark MLlib, pero tengo algunas preguntas sobre cómo servir un modelo una vez que está capacitado. Por ejemplo, en Azure ML, una vez ...

1 la respuesta

Spark combina columnas como matriz anidada

¿Cómo puedo combinar columnas en spark como una matriz anidada? val inputSmall = Seq( ("A", 0.3, "B", 0.25), ("A", 0.3, "g", 0.4), ("d", 0.0, "f", 0.1), ("d", 0.0, "d", 0.7), ("A", 0.3, "d", 0.7), ("d", 0.0, "g", 0.4), ("c", 0.2, "B", ...

1 la respuesta

Spark: número de rendimiento inconsistente en la escala del número de núcleos

Estoy haciendo una prueba de escala simple en Spark usando benchmark de clasificación: desde 1 núcleo, hasta 8 núcleos. Noto que 8 núcleos es más lento que 1 núcleo. //run spark using 1 core spark-submit --master local[1] --class ...

1 la respuesta

SPARK: YARN mata contenedores por exceder los límites de memoria

Actualmente nos encontramos con un problema en el que los trabajos de Spark ven que se eliminan varios contenedores por exceder los límites de memoria cuando se ejecutan en YARN. 16/11/18 17:58:52 WARN TaskSetManager: Lost task 53.0 in stage ...

1 la respuesta

¿Cómo crear un esquema a partir de un archivo CSV y conservar / guardar ese esquema en un archivo?

Tengo un archivo CSV con 10 columnas. La mitad de la cuerda y la mitad son enteros. ¿Cuál es el código Scala para: Crear (inferir) el esquemaGuardar ese esquema en un archivoTengo esto hasta ahora: import org.apache.spark.sql.SQLContext val ...

1 la respuesta

Spark DataFrame Schema Nullable Fields

Escribí el siguiente código tanto en Scala como en Python, sin embargo, el DataFrame que se devuelve no parece aplicar los campos no anulables en mi esquema que estoy aplicando.italianVotes.csv es un archivo csv con '~' como separador y cuatro ...