Resultados de la búsqueda a petición "apache-spark-sql"

Estoy tratando de obtener los últimos registros de una tabla usando self join. Funciona usandospark-sql pero no funciona con chispaDataFrame API ¿Alguien puede ayudar? ¿Es un error? Estoy usando Spark 2.2.0 en modo local Creando ...

apache-spark

1 la respuesta

Cómo mejorar la transmisión Velocidad de unión con una condición intermedia en Spark

Tengo dos marcos de datos A y B. A es grande (100 G) y B es relativamente pequeño (100 M). El número de partición de A es 8 y el número de partición de B es 1. A.join(broadcast(B), $"cur" >= $"low" && $"cur" <= $"high", "left_outer")La velocidad ...

java json apache-spark

1 la respuesta

Retenga claves con valores nulos mientras escribe JSON en spark

Estoy tratando de escribir un archivo JSON usando spark. Hay algunas claves que tienennull como valor Estos se muestran muy bien en elDataSet, pero cuando escribo el archivo, se caen las claves. ¿Cómo me aseguro de que se conserven? código para ...

sql apache-spark dataframe

2 la respuesta

Spark Dataframe anidado caso cuando declaración

Necesito implementar la lógica SQL a continuación en SparkDataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1;Mi entradaDataFrame es como a continuación: val ...

java apache-spark parquet

1 la respuesta

¿Por qué Impala no puede leer los archivos de parquet después de la escritura de Spark SQL?

Tener algunos problemas con la forma en que Spark está interpretando columnas para parquet. Tengo una fuente de Oracle con esquema confirmado (método df.schema ()): root |-- LM_PERSON_ID: decimal(15,0) (nullable = true) |-- ...

apache-spark pyspark spark-dataframe pyspark-sql

1 la respuesta

Problemas con la función redonda de Pyspark

Tengo algunos problemas para que funcione la función de redondeo en pyspar, k: tengo el siguiente bloque de código, donde estoy tratando de redondear elnew_bid columna a 2 decimales y cambie el nombre de la columna comobid luego - ...

scala apache-spark time-series

1 la respuesta

Rellenar huecos en series temporales Spark

Tengo un problema con los datos de series temporales. Debido a fallas de alimentación faltan algunas marcas de tiempo en el conjunto de datos. Necesito llenar estos vacíos agregando filas, y después de eso, puedo interpolar los valores ...

apache-spark apache-spark-1.6

1 la respuesta

¿Dónde está la referencia para las opciones de escritura o lectura por formato?

Yo uso Spark 1.6.1. Estamos tratando de escribir un archivo ORC en HDFS usando HiveContext y DataFrameWriter. Si bien podemos usar df.write().orc(<path>)preferiríamos hacer algo como df.write().options(Map("format" -> "orc", "path" -> ...

scala apache-spark

2 la respuesta

¿Cómo usar DataFrame withColumn y no cambiar la partición?

Por alguna razón tengo que convertirRDD aDataFrameentonces haz algo conDataFrame. Mi interfaz esRDDasí que tengo que convertirDataFrame aRDD， Y cuando usodf.withcolumn, la partición cambia a 1, así que tengo querepartition ysortBy RDD. ¿Hay ...

apache-spark dataframe

1 la respuesta

Cuente el número de valores faltantes en un marco de datos Spark

tengo undataset con valores faltantes, me gustaría obtener el número de valores faltantes para cada columna. Lo siguiente es lo que hice, obtuve el número de valores no faltantes. ¿Cómo puedo usarlo para obtener el número de ...

Página 21 de 52

19 202122 23

Resultados de la búsqueda a petición "apache-spark-sql"

La unión automática no funciona como se esperaba con la API DataFrame

Cómo mejorar la transmisión Velocidad de unión con una condición intermedia en Spark

Retenga claves con valores nulos mientras escribe JSON en spark

Etiquetas Populares

Spark Dataframe anidado caso cuando declaración

¿Por qué Impala no puede leer los archivos de parquet después de la escritura de Spark SQL?

Problemas con la función redonda de Pyspark

Rellenar huecos en series temporales Spark

¿Dónde está la referencia para las opciones de escritura o lectura por formato?

¿Cómo usar DataFrame withColumn y no cambiar la partición?

Cuente el número de valores faltantes en un marco de datos Spark

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark-sql"

Etiquetas Populares