Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

Apache Spark en Mesos: el trabajo inicial no ha aceptado ningún recurso

Estoy ejecutando Apache Spark en modo de clúster usando Apache Mesos. Pero, cuando inicio Spark-Shell para ejecutar un comando de prueba simple (sc.parallelize (0 a 10, 8) .count) recibo el siguiente mensaje de advertencia: 16/03/10 11:50:55 ...

2 la respuesta

Spark SQL - ¿Cómo escribir DataFrame en un archivo de texto?

estoy usandoSpark SQL para leer parquet y escribir archivo de parquet. Pero en algunos casos, necesito escribir elDataFrame como archivo de texto en lugar de Json o Parquet. ¿Hay algún método predeterminado compatible o tengo que convertir ese ...

3 la respuesta

Pyspark: relleno hacia adelante con la última observación para un DataFrame

Usando Spark 1.5.1, He estado tratando de reenviar el rellenovalores nuloscon la última observación conocida parauna columnade mi DataFrame. Es posible comenzar con un valor nulo y, en este caso, rellenaría este valor nulo con la primera ...

1 la respuesta

¿Spark-sql admite múltiples delimitadores en los datos de entrada?

Tengo datos de entrada con múltiples delimitadores de un solo carácter como se indica a continuación: col1data1"col2data1;col3data1"col4data1 col1data2"col2data2;col3data2"col4data2 col1data3"col2data3;col3data3"col4data3En los datos anteriores, ...

1 la respuesta

¿Cómo filtrar según el valor de la matriz en PySpark?

Mi esquema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...

1 la respuesta

Convertir una cadena al doble en un marco de datos

He construido un marco de datos usandoconcat que produce una cadena import sqlContext.implicits._ val df = sc.parallelize(Seq((1.0, 2.0), (3.0, 4.0))).toDF("k", "v") df.registerTempTable("df") val dfConcat = df.select(concat($"k", lit(","), ...

5 la respuesta

Excepción de chispa: la tarea falló al escribir filas

Estoy leyendo archivos de texto y convirtiéndolos en archivos de parquet. Lo estoy haciendo usando el código de chispa. Pero cuando intento ejecutar el código obtengo la siguiente excepción org.apache.spark.SparkException: Job aborted due to ...

6 la respuesta

Hacer histograma con la columna Spark DataFrame

Estoy tratando de hacer un histograma con una columna de un marco de datos que se parece a DataFrame[C0: int, C1: int, ...]Si tuviera que hacer un histograma con la columna C1, ¿qué debería hacer? Algunas cosas que he intentado ...

2 la respuesta

Apache Spark Exception en el hilo "main" java.lang.NoClassDefFoundError: scala / collection / GenTraversableOnce $ class

Versión de Scala: 2.11.7 (se tuvo que actualizar la versión de Scala para permitir que la clase de casos acepte más de 22 parámetros). Versión de Spark: 1.6.1 PFB pom.xml Obteniendo el siguiente error al intentar configurar la chispa en intellij ...

2 la respuesta

Cambiar el prefijo de nombre de archivo de salida para DataFrame.write ()

Los archivos de salida generados a través del método Spark SQL DataFrame.write () comienzan con el prefijo de nombre base "parte". p.ej. DataFrame sample_07 = ...