Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

¿Producto acumulativo en Spark?

Intento implementar un producto acumulativo en Spark scala pero realmente no sé cómo hacerlo. Tengo el siguiente marco de datos: Input data: +--+--+--------+----+ |A |B | date | val| +--+--+--------+----+ |rr|gg|20171103| 2 | |hh|jj|20171103| 3 ...

2 la respuesta

Convierta columnas de un marco de datos Spark con una matriz de objetos JSON en varias filas

Tengo una transmisión de datos JSON, cuya estructura se puede describir con la clase de caso a continuación case class Hello(A: String, B: Array[Map[String, String]]) Los datos de muestra para el mismo son los siguientes | A | B | ...

1 la respuesta

Particionar un gran conjunto de datos sesgados en S3 con el método de la partición de Spark

stoy tratando de escribir un gran conjunto de datos particionados en el disco con Spark y lapartitionByl algoritmo @ está luchando con los dos enfoques que he probado. Las particiones están muy sesgadas: algunas de las particiones son masivas ...

1 la respuesta

¿Cómo arreglar Exception mientras se ejecuta localmente el programa spark-sql en windows10 habilitando HiveSupport?

Estoy trabajando enSPARK-SQL 2.3.1 y estoy tratando de habilitar hiveSupport mientras creo una sesión como se muestra a continuación .enableHiveSupport() .config("spark.sql.warehouse.dir", "c://tmp//hive") Corrí debajo del ...

1 la respuesta

Producto cartesiano detectado para INNER unirse en columna literal en PySpark

El siguiente código genera la excepción "Producto cartesiano detectado para la unión INNER": first_df = spark.createDataFrame([{"first_id": "1"}, {"first_id": "1"}, {"first_id": "1"}, ]) second_df = spark.createDataFrame([{"some_value": ...

1 la respuesta

pyspark convierte fila a json con nulos

Gol Para un marco de datos con esquema id:string Cold:string Medium:string Hot:string IsNull:string annual_sales_c:string average_check_c:string credit_rating_c:string cuisine_c:string dayparts_c:string ...

3 la respuesta

¿Cómo encontrar elementos comunes entre dos columnas de matriz?

Tengo dos columnas de cadena separadas por comas sourceAuthors ytargetAuthors). val df = Seq( ("Author1,Author2,Author3","Author2,Author3,Author1") ).toDF("source","target") Me gustaría agregar otra columnanCommonAuthors con el número de ...

0 la respuesta

Spark Funciones de ventana que dependen de sí mismo

Digo que tengo una columna de marcas de tiempo ordenadas en un DataFrame. Quiero escribir una función que agregue una columna a este DataFrame que corte las marcas de tiempo en segmentos de tiempo secuenciales de acuerdo con las siguientes ...

1 la respuesta

¿Cómo usar la función de transformación de orden superior?

Se trata detransform función de orden superior https: //issues.apache.org/jira/browse/SPARK-2390 [https://issues.apache.org/jira/browse/SPARK-23908]). ¿Hay alguna forma de usarlo como una función estándar (en ...

2 la respuesta

¿Número de particiones de trama de datos después de ordenar?

Cómo se determina la cantidad de particiones después de usar unaorderBy? Siempre pensé que el marco de datos resultante tienespark.sql.shuffle.partitions, pero esto no parece ser cierto: val df = (1 to 10000).map(i => ...