Resultados de la búsqueda a petición "spark-dataframe"

3 la respuesta

Lea desde una tabla de colmena y escríbale usando spark sql

Estoy leyendo una tabla de Hive usando Spark SQL y asignándola a un scala val val x = sqlContext.sql("select * from some_table")Luego estoy procesando un poco con el marco de datos x y finalmente obtengo un marco de datos y, que tiene el esquema ...

1 la respuesta

Obteniendo valores distintos en una columna usando Spark DataFrame

Al usar la versión 1.6.1 de Spark, necesito obtener valores distintos en una columna y luego realizar alguna transformación específica encima. La columna contiene más de 50 millones de registros y puede crecer más. Entiendo que hacer ...

4 la respuesta

Pyspark: muestra el histograma de una columna de marco de datos

En el marco de datos de pandas, estoy usando el siguiente código para trazar el histograma de una columna: my_df.hist(column = 'field_1')¿Hay algo que pueda lograr el mismo objetivo en el marco de datos pyspark? (Estoy en el cuaderno de Jupyter) ...

4 la respuesta

¿Cómo guardar un DataFrame como CSV comprimido (comprimido)?

Yo uso Spark 1.6.0 y Scala. Quiero guardar un DataFrame como formato CSV comprimido. Esto es lo que tengo hasta ahora (supongo que ya tengodf ysc comoSparkContext): //set the conf to the codec I ...

1 la respuesta

¿Cuál es la diferencia entre las funciones sort y orderBy en Spark?

¿Cuál es la diferencia entre sort y orderBy spark DataFrame? scala> zips.printSchema root |-- _id: string (nullable = true) |-- city: string (nullable = true) |-- loc: array (nullable = true) | |-- element: double (containsNull = true) |-- pop: ...

1 la respuesta

¿Por qué Apache Spark lee columnas innecesarias de Parquet dentro de estructuras anidadas?

Mi equipo está creando un proceso ETL para cargar archivos de texto delimitados sin procesar en un "lago de datos" basado en Parquet usando Spark. Una de las promesas de la tienda de columnas Parquet es que una consulta solo leerá las "franjas de ...

2 la respuesta

Cómo escribir en el almacén de PostgreSQL usando Spark Dataset

Estoy tratando de escribir un conjunto de datos de Spark en una tabla postgresql existente (no puedo cambiar los metadatos de la tabla como los tipos de columna). Una de las columnas de esta tabla es de ...

1 la respuesta

Aplicar una función a una sola columna de un csv en Spark

Usando Spark, estoy leyendo un csv y quiero aplicar una función a una columna en el csv. Tengo un código que funciona pero es muy hacky. ¿Cuál es la forma apropiada de hacer esto? Mi código SparkContext().addPyFile("myfile.py") spark = ...

1 la respuesta

¿Cómo desactivar la notación científica en pyspark?

Como resultado de alguna agregación, se me ocurrió el siguiente cuadro de chispa: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | ...

7 la respuesta

Operador LIKE de marco de datos Pyspark

¿Cuál es el equivalente en Pyspark para el operador LIKE? Por ejemplo, me gustaría hacer: SELECT * FROM table WHERE column LIKE "*somestring*";buscando algo fácil como esto (pero esto no ...