Resultados de la búsqueda a petición "apache-spark"

Estoy ejecutando un módulo de regresión logística en scala y tengo un marco de datos como el siguiente: df +-----------+------------+ |x |y | +-----------+------------+ | 0| 0| | 0| 33| | 0| 58| | 0| 96| | 0| 1| | 1| 21| | 0| 10| | 0| 65| | 1| ...

sql scala

1 la respuesta

Spark divide el valor de una columna en varias filas

Mi problema es que tengo una tabla como esta: ------------------------ A B C ------------------------ a1 b2 c1|c2|c3|c4c1 | c2 | c3 | c4 es un valor separado por |. Mi resultado final debería verse así: --------- A B C --------- a1 b1 c1 a1 b1 ...

scala dataframe nested apache-spark-sql

2 la respuesta

crear un marco de datos de chispa a partir de un archivo json anidado en scala [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo acceder a las subentidades en el archivo JSON? [/questions/44814926/how-to-access-sub-entities-in-json-file] 1 respuestaTengo un archivo json que se ve así { "group" : {}, "lang" : [ [ 1, ...

memory-management emr pyspark

1 la respuesta

Spark Container & Executor OOMs durante `reduceByKey`

Estoy ejecutando un trabajo de Spark en el EMR de Amazon en modo cliente con YARN, usando pyspark, para procesar datos de dos archivos de entrada (un total de 200 GB) de tamaño. El trabajo une los datos juntos (usandoreduceByKey), hace algunos ...

python pandas apache-spark-sql

1 la respuesta

¿Marco de datos de pandas a marco de datos de Spark, manejando conversiones de NaN a nulo real?

Quiero convertir el marco de datos de pandas a chispa y estoy usandospark_context.createDataFrame() Método para crear el marco de datos. También estoy especificando el esquema en elcreateDataFrame() método. Lo que quiero saber es cómo manejar ...

apache-spark-sql spark-dataframe

2 la respuesta

cómo obtener meses, años de diferencia entre dos fechas en sparksql

Recibo el error: org.apache.spark.sql.analysisexception: cannot resolve 'year'Mis datos de entrada: 1,2012-07-21,2014-04-09Mi código: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...

apache-spark-sql

3 la respuesta

¿Cómo maximizar el valor y mantener todas las columnas (para registros máximos por grupo)? [duplicar]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo seleccionar la primera fila de cada grupo? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 respuestasDado el siguiente DataFrame: +----+-----+---+-----+ | uid| k| v|count| ...

scala parquet

2 la respuesta

Spark: lee el archivo solo si la ruta existe

Estoy tratando de leer los archivos presentes enSequence de caminos en scala. A continuación se muestra el código de ejemplo (pseudo): val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*)Ahora, en la secuencia ...

yarn hadoop

1 la respuesta

Acceda a un Hive seguro cuando ejecute Spark en un clúster YARN no seguro

Tenemos dos clústeres de cloudera 5.7.1, uno protegido con Kerberos y otro no seguro. ¿Es posible ejecutar Spark utilizando el clúster YARN no seguro mientras se accede a las tablas de la colmena almacenadas en el clúster seguro? (La versión de ...

python django pyspark

1 la respuesta

Las bibliotecas necesarias para usar Spark de Python (PySpark)

Estoy usando PySpark de Django y me conecto a un nodo maestro de chispas usando SparkSession para ejecutar un trabajo en el clúster. Mi pregunta es: ¿necesito una instalación completa de spark en mi máquina local? Toda la documentación me hace ...

Página 70 de 165

68 697071 72

Resultados de la búsqueda a petición "apache-spark"

¿Cómo transformar el marco de datos en un vector de características de etiqueta?

Spark divide el valor de una columna en varias filas

crear un marco de datos de chispa a partir de un archivo json anidado en scala [duplicado]

Etiquetas Populares

Spark Container & Executor OOMs durante `reduceByKey`

¿Marco de datos de pandas a marco de datos de Spark, manejando conversiones de NaN a nulo real?

cómo obtener meses, años de diferencia entre dos fechas en sparksql

¿Cómo maximizar el valor y mantener todas las columnas (para registros máximos por grupo)? [duplicar]

Spark: lee el archivo solo si la ruta existe

Acceda a un Hive seguro cuando ejecute Spark en un clúster YARN no seguro

Las bibliotecas necesarias para usar Spark de Python (PySpark)

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares