Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

¿Cómo manejar filas de líneas múltiples en spark?

Tengo un marco de datos que tiene algunas observaciones de varias líneas: +--------------------+----------------+ | col1| col2| +--------------------+----------------+ |something1 |somethingelse1 | |something2 |somethingelse2 | |something3 ...

2 la respuesta

La conversión de la tabla mysql a dataset de spark es muy lenta en comparación con la misma del archivo csv

Tengo un archivo csv en Amazon s3 con un tamaño de 62 MB (114 000 filas). Lo estoy convirtiendo en un conjunto de datos de chispa y tomo las primeras 500 filas. El código es el siguiente; DataFrameReader df = new ...

2 la respuesta

No se puede resolver la columna (nombre de columna numérico) en Spark Dataframe

Esta es mi información: scala> data.printSchema root |-- 1.0: string (nullable = true) |-- 2.0: string (nullable = true) |-- 3.0: string (nullable = true)Esto no funciona :( scala> ...

2 la respuesta

Pyspark: matriz de conversión con estructura anidada a cadena

Tengo el marco de datos pyspark con una columna llamadaFiltros: "matriz>" Quiero guardar mi marco de datos en un archivo csv, para eso necesito convertir la matriz al tipo de cadena. Traté de lanzarlo:DF.Filters.tostring() ...

3 la respuesta

Spark2.1.0 Jackson incompatible versiones 2.7.6

Estoy tratando de ejecutar un ejemplo simple de chispa en intellij, pero obtengo el error así: Exception in thread "main" java.lang.ExceptionInInitializerError at org.apache.spark.SparkContext.withScope(SparkContext.scala:701) ...

2 la respuesta

¿Cómo saber qué consulta de conteo es la más rápida?

He estado explorando optimizaciones de consultas en las versiones recientes de Spark SQL 2.3.0-SNAPSHOT y noté diferentes planes físicos para consultas semánticamente idénticas. Supongamos que tengo que contar el número de filas en el siguiente ...

3 la respuesta

¿Cuál es el concepto de aplicación, trabajo, etapa y tarea en chispa?

¿Es correcto mi entendimiento? Aplicación: una presentación de chispa. trabajo: una vez que ocurre una evaluación perezosa, hay un trabajo. etapa: está relacionado con la combinación aleatoria y el tipo de transformación. Me es difícil ...

2 la respuesta

Intersección de matriz en Spark SQL

Tengo una tabla con una columna de tipo de matriz llamadawriter que tiene los valores comoarray[value1, value2], array[value2, value3].... etc. estoy haciendoself join para obtener resultados que tengan valores comunes entre matrices. Lo ...

1 la respuesta

¿Cómo usar Column.isin con la columna de matriz en join?

case class Foo1(codes:Seq[String], name:String) case class Foo2(code:String, description:String) val ds1 = Seq( Foo1(Seq("A"), "foo1"), Foo1(Seq("A", "B"), "foo2"), Foo1(Seq("B", "C", "D"), "foo3"), Foo1(Seq("C"), "foo4"), Foo1(Seq("C", "D"), ...

2 la respuesta

¿Cómo evitar archivos vacíos al escribir archivos de parquet?

Estoy leyendo de la cola de Kafka usando la transmisión de estructura Spark. Después de leer de Kafka, estoy aplicando filtro en el marco de datos. Este marco de datos filtrado lo estoy diciendo en un archivo de parquet., Esto está generando ...