Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

La unión automática no funciona como se esperaba con la API DataFrame

Estoy tratando de obtener los últimos registros de una tabla usando self join. Funciona usandospark-sql pero no funciona con chispaDataFrame API ¿Alguien puede ayudar? ¿Es un error? Estoy usando Spark 2.2.0 en modo local Creando ...

1 la respuesta

Cómo mejorar la transmisión Velocidad de unión con una condición intermedia en Spark

Tengo dos marcos de datos A y B. A es grande (100 G) y B es relativamente pequeño (100 M). El número de partición de A es 8 y el número de partición de B es 1. A.join(broadcast(B), $"cur" >= $"low" && $"cur" <= $"high", "left_outer")La velocidad ...

1 la respuesta

Retenga claves con valores nulos mientras escribe JSON en spark

Estoy tratando de escribir un archivo JSON usando spark. Hay algunas claves que tienennull como valor Estos se muestran muy bien en elDataSet, pero cuando escribo el archivo, se caen las claves. ¿Cómo me aseguro de que se conserven? código para ...

2 la respuesta

Spark Dataframe anidado caso cuando declaración

Necesito implementar la lógica SQL a continuación en SparkDataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1;Mi entradaDataFrame es como a continuación: val ...

1 la respuesta

¿Por qué Impala no puede leer los archivos de parquet después de la escritura de Spark SQL?

Tener algunos problemas con la forma en que Spark está interpretando columnas para parquet. Tengo una fuente de Oracle con esquema confirmado (método df.schema ()): root |-- LM_PERSON_ID: decimal(15,0) (nullable = true) |-- ...

1 la respuesta

Problemas con la función redonda de Pyspark

Tengo algunos problemas para que funcione la función de redondeo en pyspar, k: tengo el siguiente bloque de código, donde estoy tratando de redondear elnew_bid columna a 2 decimales y cambie el nombre de la columna comobid luego - ...

1 la respuesta

Rellenar huecos en series temporales Spark

Tengo un problema con los datos de series temporales. Debido a fallas de alimentación faltan algunas marcas de tiempo en el conjunto de datos. Necesito llenar estos vacíos agregando filas, y después de eso, puedo interpolar los valores ...

1 la respuesta

¿Dónde está la referencia para las opciones de escritura o lectura por formato?

Yo uso Spark 1.6.1. Estamos tratando de escribir un archivo ORC en HDFS usando HiveContext y DataFrameWriter. Si bien podemos usar df.write().orc(<path>)preferiríamos hacer algo como df.write().options(Map("format" -> "orc", "path" -> ...

2 la respuesta

¿Cómo usar DataFrame withColumn y no cambiar la partición?

Por alguna razón tengo que convertirRDD aDataFrameentonces haz algo conDataFrame. Mi interfaz esRDDasí que tengo que convertirDataFrame aRDD, Y cuando usodf.withcolumn, la partición cambia a 1, así que tengo querepartition ysortBy RDD. ¿Hay ...

1 la respuesta

Cuente el número de valores faltantes en un marco de datos Spark

tengo undataset con valores faltantes, me gustaría obtener el número de valores faltantes para cada columna. Lo siguiente es lo que hice, obtuve el número de valores no faltantes. ¿Cómo puedo usarlo para obtener el número de ...