Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

¿Cómo transformar el marco de datos en un vector de características de etiqueta?

Estoy ejecutando un módulo de regresión logística en scala y tengo un marco de datos como el siguiente: df +-----------+------------+ |x |y | +-----------+------------+ | 0| 0| | 0| 33| | 0| 58| | 0| 96| | 0| 1| | 1| 21| | 0| 10| | 0| 65| | 1| ...

1 la respuesta

Spark divide el valor de una columna en varias filas

Mi problema es que tengo una tabla como esta: ------------------------ A B C ------------------------ a1 b2 c1|c2|c3|c4c1 | c2 | c3 | c4 es un valor separado por |. Mi resultado final debería verse así: --------- A B C --------- a1 b1 c1 a1 b1 ...

2 la respuesta

crear un marco de datos de chispa a partir de un archivo json anidado en scala [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo acceder a las subentidades en el archivo JSON? [/questions/44814926/how-to-access-sub-entities-in-json-file] 1 respuestaTengo un archivo json que se ve así { "group" : {}, "lang" : [ [ 1, ...

1 la respuesta

Spark Container & Executor OOMs durante `reduceByKey`

Estoy ejecutando un trabajo de Spark en el EMR de Amazon en modo cliente con YARN, usando pyspark, para procesar datos de dos archivos de entrada (un total de 200 GB) de tamaño. El trabajo une los datos juntos (usandoreduceByKey), hace algunos ...

1 la respuesta

¿Marco de datos de pandas a marco de datos de Spark, manejando conversiones de NaN a nulo real?

Quiero convertir el marco de datos de pandas a chispa y estoy usandospark_context.createDataFrame() Método para crear el marco de datos. También estoy especificando el esquema en elcreateDataFrame() método. Lo que quiero saber es cómo manejar ...

2 la respuesta

cómo obtener meses, años de diferencia entre dos fechas en sparksql

Recibo el error: org.apache.spark.sql.analysisexception: cannot resolve 'year'Mis datos de entrada: 1,2012-07-21,2014-04-09Mi código: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...

3 la respuesta

¿Cómo maximizar el valor y mantener todas las columnas (para registros máximos por grupo)? [duplicar]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo seleccionar la primera fila de cada grupo? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 respuestasDado el siguiente DataFrame: +----+-----+---+-----+ | uid| k| v|count| ...

2 la respuesta

Spark: lee el archivo solo si la ruta existe

Estoy tratando de leer los archivos presentes enSequence de caminos en scala. A continuación se muestra el código de ejemplo (pseudo): val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*)Ahora, en la secuencia ...

1 la respuesta

Acceda a un Hive seguro cuando ejecute Spark en un clúster YARN no seguro

Tenemos dos clústeres de cloudera 5.7.1, uno protegido con Kerberos y otro no seguro. ¿Es posible ejecutar Spark utilizando el clúster YARN no seguro mientras se accede a las tablas de la colmena almacenadas en el clúster seguro? (La versión de ...

1 la respuesta

Las bibliotecas necesarias para usar Spark de Python (PySpark)

Estoy usando PySpark de Django y me conecto a un nodo maestro de chispas usando SparkSession para ejecutar un trabajo en el clúster. Mi pregunta es: ¿necesito una instalación completa de spark en mi máquina local? Toda la documentación me hace ...