Resultados de la búsqueda a petición "spark-dataframe"

2 la respuesta

Pyspark: matriz de conversión con estructura anidada a cadena

Tengo el marco de datos pyspark con una columna llamadaFiltros: "matriz>" Quiero guardar mi marco de datos en un archivo csv, para eso necesito convertir la matriz al tipo de cadena. Traté de lanzarlo:DF.Filters.tostring() ...

1 la respuesta

Contar el número de filas duplicadas en SPARKSQL

Tengo un requisito donde necesito contar el número de filas duplicadas en SparkSQL para las tablas de Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import ...

4 la respuesta

¿Cuáles son las posibles razones para recibir TimeoutException ?: Futures expiró después de [n segundos] al trabajar con Spark [duplicar]

Esta pregunta ya tiene una respuesta aquí: ¿Por qué falla la unión con "java.util.concurrent.TimeoutException: Futures expiró después de [300 ...

3 la respuesta

Lea desde una tabla de colmena y escríbale usando spark sql

Estoy leyendo una tabla de Hive usando Spark SQL y asignándola a un scala val val x = sqlContext.sql("select * from some_table")Luego estoy procesando un poco con el marco de datos x y finalmente obtengo un marco de datos y, que tiene el esquema ...

1 la respuesta

Apache Spark que maneja datos sesgados

Tengo dos mesas que me gustaría unir. Uno de ellos tiene un sesgo de datos muy malo. Esto está causando que mi trabajo de chispa no se ejecute en paralelo ya que la mayoría del trabajo se realiza en una partición. Escuché y leí e intenté ...

3 la respuesta

¿Cómo funciona createOrReplaceTempView en Spark?

Soy nuevo en Spark y Spark SQL. CómocreateOrReplaceTempView trabaja en Spark? Si registramos unRDD de objetos como una tabla provocará mantener todos los datos en la memoria?

3 la respuesta

¿Qué es eficiente, Dataframe o RDD o hiveql?

Soy novato en Apache Spark. Mi trabajo es leer dos archivos CSV, seleccionar algunas columnas específicas de él, fusionarlo, agregarlo y escribir el resultado en un solo archivo CSV. Por ejemplo, CSV1name,age,deparment_id ...

1 la respuesta

Obteniendo valores distintos en una columna usando Spark DataFrame

Al usar la versión 1.6.1 de Spark, necesito obtener valores distintos en una columna y luego realizar alguna transformación específica encima. La columna contiene más de 50 millones de registros y puede crecer más. Entiendo que hacer ...

1 la respuesta

Spark Window Functions requiere HiveContext?

Estoy probando un ejemplo de función de ventana en spark de este ...

3 la respuesta

Spark: Agregar columna al marco de datos condicionalmente

Estoy tratando de tomar mis datos de entrada: A B C -------------- 4 blah 2 2 3 56 foo 3Y agregue una columna al final según si B está vacío o no: A B C D -------------------- 4 blah 2 1 2 3 0 56 foo 3 1Puedo hacer esto fácilmente registrando ...