Resultados de la búsqueda a petición "spark-dataframe"

Estoy tratando de filtrar un marco de datos contra otro: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Ahora quiero ...

apache-spark teradata pyspark

2 la respuesta

¿Cómo mejorar el rendimiento para trabajos lentos de Spark utilizando DataFrame y conexión JDBC?

Estoy tratando de acceder a una tabla de Teradata de tamaño medio (~ 100 millones de filas) a través de JDBC en modo independiente en un solo nodo (local [*]). Estoy usando Spark 1.4.1. y está configurado en una máquina muy potente (2 cpu, 24 ...

apache-spark-sql apache-spark dataframe

1 la respuesta

Spark dataframes groupby en la lista

Estoy tratando de hacer un análisis en conjuntos. Tengo un conjunto de datos de muestra que se ve así: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}Todo lo que es, es un campo único que es una lista de ...

sample apache-spark

2 la respuesta

SPARK ¿Es el método de muestreo en Dataframes muestreo uniforme?

Quiero elegir aleatoriamente un número selecto de filas de un marco de datos y sé que el método de muestra hace esto, pero me preocupa que mi aleatoriedad sea un muestreo uniforme. Entonces, me preguntaba si el método de muestra de Spark en ...

apache-spark sparkr parquet r

0 la respuesta

Error de SparkR collect () y head () para Spark DataFrame: los argumentos implican un número diferente de filas

Leí un archivo de parquet del sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...

apache-spark apache-spark-sql

3 la respuesta

¿Qué es eficiente, Dataframe o RDD o hiveql?

Soy novato en Apache Spark. Mi trabajo es leer dos archivos CSV, seleccionar algunas columnas específicas de él, fusionarlo, agregarlo y escribir el resultado en un solo archivo CSV. Por ejemplo, CSV1name,age,deparment_id ...

hadoop apache-spark hive apache-spark-sql

5 la respuesta

Guarde el marco de datos de Spark como una tabla particionada dinámica en Hive

Tengo una aplicación de muestra que trabaja para leer archivos csv en un marco de datos. El marco de datos se puede almacenar en una tabla Hive en formato de parquet utilizando el métododf.saveAsTable(tablename,mode). El código anterior funciona ...

python apache-spark apache-spark-sql pyspark

4 la respuesta

Actualización de una columna de marco de datos en chispa

Mirando la nueva API de marco de datos de chispa, no está claro si es posible modificar las columnas del marco de datos. ¿Cómo haría para cambiar un valor en fila?x columnay de un marco de datos? Enpandas esto seríadf.ix[x,y] = ...

Página 12 de 12

8 9 10 1112

Resultados de la búsqueda a petición "spark-dataframe"

Cómo filtrar un marco de datos de chispa contra otro marco de datos

¿Cómo mejorar el rendimiento para trabajos lentos de Spark utilizando DataFrame y conexión JDBC?

Spark dataframes groupby en la lista

Etiquetas Populares

SPARK ¿Es el método de muestreo en Dataframes muestreo uniforme?

Error de SparkR collect () y head () para Spark DataFrame: los argumentos implican un número diferente de filas

¿Qué es eficiente, Dataframe o RDD o hiveql?

Guarde el marco de datos de Spark como una tabla particionada dinámica en Hive

Actualización de una columna de marco de datos en chispa

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "spark-dataframe"

Etiquetas Populares