Resultados de la búsqueda a petición "apache-spark-sql"
Los nombres de las columnas del marco de datos entran en conflicto con. (Punto)
Tengo un DataFramedf que tiene este esquema: root |-- person.name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true) Cuando lo hagodf.select("person.name") ...
Usar Spark para escribir un archivo de parquet en s3 sobre s3a es muy lento
Estoy tratando de escribir unparquet presentar aAmazon S3 utilizandoSpark 1.6.1. El pequeñoparquet que estoy generando es~2GB una vez escrito, entonces no son tantos datos. Estoy tratando de probarSpark fuera como una plataforma que ...
Cómo agregar una nueva columna Struct a un DataFrame
Actualmente estoy tratando de extraer una base de datos de MongoDB y usar Spark para ingerir ElasticSearch congeo_points. La base de datos de Mongo tiene valores de latitud y longitud, pero ElasticSearch requiere que se incluyan en elgeo_point ...
cómo cambiar una columna de marco de datos de tipo de cadena a tipo doble en pyspark
Tengo un marco de datos con una columna como String. Quería cambiar el tipo de columna a Tipo doble en PySpark. El siguiente es el camino que hice: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...
¿Cómo convertir la marca de tiempo al formato de fecha en DataFrame?
tengo unDataFrame conTimestamp columna, que necesito convertir comoDate formato. ¿Hay alguna función Spark SQL disponible para esto?
Spark Funciones de ventana que dependen de sí mismo
Digo que tengo una columna de marcas de tiempo ordenadas en un DataFrame. Quiero escribir una función que agregue una columna a este DataFrame que corte las marcas de tiempo en segmentos de tiempo secuenciales de acuerdo con las siguientes ...
Use collect_list y collect_set en Spark SQL
De acuerdo con ladocs [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$] , elcollect_set ycollect_list Las funciones deben estar disponibles en Spark SQL. Sin embargo, no puedo hacer que funcione. Estoy ...
Producto cartesiano detectado para INNER unirse en columna literal en PySpark
El siguiente código genera la excepción "Producto cartesiano detectado para la unión INNER": first_df = spark.createDataFrame([{"first_id": "1"}, {"first_id": "1"}, {"first_id": "1"}, ]) second_df = spark.createDataFrame([{"some_value": ...
¿Cuándo usar Spark DataFrame / Dataset API y cuándo usar RDD simple?
El motor de ejecución Spark SQL DataFrame / Dataset tiene varias optimizaciones de tiempo y espacio extremadamente eficientes (por ejemplo, InternalRow y expression codeGen). Según muchas documentaciones, parece ser una mejor opción que RDD para ...
¿Dónde está la referencia para las opciones de escritura o lectura por formato?
Yo uso Spark 1.6.1. Estamos tratando de escribir un archivo ORC en HDFS usando HiveContext y DataFrameWriter. Si bien podemos usar df.write().orc(<path>)preferiríamos hacer algo como df.write().options(Map("format" -> "orc", "path" -> ...