Resultados de la búsqueda a petición "spark-dataframe"

4 la respuesta

Múltiples condiciones para el filtro en marcos de datos de chispa

Tengo un marco de datos con cuatro campos. uno de los nombres de campo es Estado y estoy tratando de usar una condición OR en .filter para un marco de datos. Intenté debajo de las consultas pero no tuve suerte. df2 = df1.filter(("Status=2") || ...

2 la respuesta

Unirse a un marco de datos de chispa grande y descomunal

Tengo dos marcos de datos, df1 tiene 6 millones de filas, df2 tiene mil millones. He probado el estándardf1.join(df2,df1("id")<=>df2("id2")), pero se queda sin memoria. df1 es demasiado grande para colocarlo en una unión de difusión. Incluso ...

3 la respuesta

Pyspark: relleno hacia adelante con la última observación para un DataFrame

Usando Spark 1.5.1, He estado tratando de reenviar el rellenovalores nuloscon la última observación conocida parauna columnade mi DataFrame. Es posible comenzar con un valor nulo y, en este caso, rellenaría este valor nulo con la primera ...

2 la respuesta

chispa: cómo hacer una caída Duplica en un marco de datos mientras mantiene la fila con la marca de tiempo más alta [duplicado]

Esta pregunta ya tiene una respuesta aquí: Encuentre la fila máxima por grupo en Spark DataFrame [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 respuestas Tengo un caso de uso en el que necesitaría eliminar filas ...

1 la respuesta

¿Cómo modificar un Spark Dataframe con una estructura compleja anidada?

Tengo una estructura DataFrame compleja y me gustaría anular una columna fácilmente. He creado clases implícitas que conectan la funcionalidad y abordan fácilmente las estructuras 2D DataFrame, pero una vez que DataFrame se vuelve más complicado ...

3 la respuesta

¿Cómo unir dos DataFrames en Scala y Apache Spark?

Hay dos marcos de datos (Scala, Apache Spark 1.6.1) 1) coincidencias MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon2) Datos personales Player | BirthYear ...

2 la respuesta

Cómo pasar múltiples declaraciones en Spark SQL HiveContext

Por ejemplo, tengo pocas instrucciones Hive HQL que quiero pasar a Spark SQL: set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5;Lo siguiente ...

1 la respuesta

¿Cómo dejar que Spark analice un campo String escapado JSON como un objeto JSON para inferir la estructura adecuada en DataFrames?

Tengo como entrada un conjunto de archivos formateados como un solo objeto JSON por línea. El problema, sin embargo, es que un campo en estos objetos JSON es una cadena con escape JSON. Ejemplo { "id":1, "name":"some name", ...

3 la respuesta

Obtenga una lista de tipos de datos del esquema en Apache Spark

Tengo el siguiente código en Spark-Python para obtener la lista de nombres del esquema de un DataFrame, que funciona bien, pero ¿cómo puedo obtener la lista de los tipos de datos? columnNames = df.schema.namesPor ejemplo, algo como: columnTypes ...

4 la respuesta

¿Cómo explotar columnas?

Después: val df = Seq((1, Vector(2, 3, 4)), (1, Vector(2, 3, 4))).toDF("Col1", "Col2") Tengo este DataFrame en Apache Spark: +------+---------+ | Col1 | Col2 | +------+---------+ | 1 |[2, 3, 4]| | 1 |[2, 3, 4]| +------+---------+¿Cómo convierto ...