Resultados de la búsqueda a petición "pyspark"

4 la respuesta

Filtrar un Pyspark DataFrame con una cláusula IN similar a SQL

Quiero filtrar un Pyspark DataFrame con un SQL comoIN cláusula, como en sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')dóndea es la tupla(1, 2, 3). Recibo este error: java.lang.RuntimeException: ...

1 la respuesta

Envolviendo una función java en pyspark

Estoy tratando de crear una función agregada definida por el usuario a la que pueda llamar desde python. Traté de seguir la respuesta ...

2 la respuesta

¿Salida de VectorAssembler solo a DenseVector?

Hay algo muy molesto con la función de VectorAssembler. Actualmente estoy transformando un conjunto de columnas en una sola columna de vectores y luego uso la función StandardScaler para aplicar la escala a las características incluidas. Sin ...

2 la respuesta

sobrescribir una salida de chispa usando pyspark

Estoy tratando de sobrescribir un marco de datos Spark usando la siguiente opción en PySpark pero no tengo éxito spark_df.write.format('com.databricks.spark.csv').option("header", "true",mode='overwrite').save(self.output_file_path)el comando ...

2 la respuesta

Agregar columna a PySpark DataFrame dependiendo de si el valor de la columna está en otra columna

Tengo un PySpark DataFrame con estructura dada por [('u1', 1, [1 ,2, 3]), ('u1', 4, [1, 2, 3])].toDF('user', 'item', 'fav_items') Necesito agregar una columna más con 1 o 0 dependiendo de si 'item' está en 'fav_items' o no. Entonces yo ...

3 la respuesta

Pyspark: relleno hacia adelante con la última observación para un DataFrame

Usando Spark 1.5.1, He estado tratando de reenviar el rellenovalores nuloscon la última observación conocida parauna columnade mi DataFrame. Es posible comenzar con un valor nulo y, en este caso, rellenaría este valor nulo con la primera ...

1 la respuesta

¿Cómo filtrar según el valor de la matriz en PySpark?

Mi esquema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...

6 la respuesta

Hacer histograma con la columna Spark DataFrame

Estoy tratando de hacer un histograma con una columna de un marco de datos que se parece a DataFrame[C0: int, C1: int, ...]Si tuviera que hacer un histograma con la columna C1, ¿qué debería hacer? Algunas cosas que he intentado ...

1 la respuesta

¿Por qué obtengo resultados nulos de la función date_format () PySpark?

Supongamos que hay un marco de fecha con una columna compuesta de fechas como cadenas. Para ese supuesto, creamos el siguiente dataFrame como ejemplo: # Importing sql types from pyspark.sql.types import StringType, IntegerType, StructType, ...

5 la respuesta

Consultar tabla HIVE en pyspark

Estoy usando CDH5.5 Tengo una tabla creada en la base de datos predeterminada de HIVE y puedo consultarla desde el comando HIVE. Salida hive> use default; OK Time taken: 0.582 seconds hive> show tables; OK bank Time taken: 0.341 seconds, ...