Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

¿Cómo ordenar DataFrame con mi comparador usando Scala?

Me gustaría ordenar un DataFrame basado en una columna con mi propio comparador. ¿Es posible hacer esto en Spark SQL? Por ejemplo, supongamos que tengo un DataFrame registrado como Tabla "MyTable" con una columna "Day" cuyo tipo es ...

2 la respuesta

Detección de sufijo de cadena eficiente

Estoy trabajando con PySpark en un gran conjunto de datos, donde quiero filtrar el marco de datos basado en cadenas en otro marco de datos. Por ejemplo dd ...

1 la respuesta

¿Cómo insisto en HDFS con chispa?

Tengo datos particionados en el HDFS. En algún momento decido actualizarlo. El algoritmo es: Lee los nuevos datos de un tema kafka. Encuentre nuevos nombres de partición de datos. Cargue los datos de las particiones con estos nombres que se ...

2 la respuesta

¿Número de particiones de trama de datos después de ordenar?

Cómo se determina la cantidad de particiones después de usar unaorderBy? Siempre pensé que el marco de datos resultante tienespark.sql.shuffle.partitions, pero esto no parece ser cierto: val df = (1 to 10000).map(i => ...

1 la respuesta

¿Cómo usar la función de transformación de orden superior?

Se trata detransform función de orden superior https: //issues.apache.org/jira/browse/SPARK-2390 [https://issues.apache.org/jira/browse/SPARK-23908]). ¿Hay alguna forma de usarlo como una función estándar (en ...

0 la respuesta

Spark Funciones de ventana que dependen de sí mismo

Digo que tengo una columna de marcas de tiempo ordenadas en un DataFrame. Quiero escribir una función que agregue una columna a este DataFrame que corte las marcas de tiempo en segmentos de tiempo secuenciales de acuerdo con las siguientes ...

3 la respuesta

¿Cómo encontrar elementos comunes entre dos columnas de matriz?

Tengo dos columnas de cadena separadas por comas sourceAuthors ytargetAuthors). val df = Seq( ("Author1,Author2,Author3","Author2,Author3,Author1") ).toDF("source","target") Me gustaría agregar otra columnanCommonAuthors con el número de ...

1 la respuesta

pyspark convierte fila a json con nulos

Gol Para un marco de datos con esquema id:string Cold:string Medium:string Hot:string IsNull:string annual_sales_c:string average_check_c:string credit_rating_c:string cuisine_c:string dayparts_c:string ...

1 la respuesta

Producto cartesiano detectado para INNER unirse en columna literal en PySpark

El siguiente código genera la excepción "Producto cartesiano detectado para la unión INNER": first_df = spark.createDataFrame([{"first_id": "1"}, {"first_id": "1"}, {"first_id": "1"}, ]) second_df = spark.createDataFrame([{"some_value": ...

1 la respuesta

¿Cómo arreglar Exception mientras se ejecuta localmente el programa spark-sql en windows10 habilitando HiveSupport?

Estoy trabajando enSPARK-SQL 2.3.1 y estoy tratando de habilitar hiveSupport mientras creo una sesión como se muestra a continuación .enableHiveSupport() .config("spark.sql.warehouse.dir", "c://tmp//hive") Corrí debajo del ...