Resultados de la búsqueda a petición "pyspark"
Filtrar un Pyspark DataFrame con una cláusula IN similar a SQL
Quiero filtrar un Pyspark DataFrame con un SQL comoIN cláusula, como en sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')dóndea es la tupla(1, 2, 3). Recibo este error: java.lang.RuntimeException: ...
Envolviendo una función java en pyspark
Estoy tratando de crear una función agregada definida por el usuario a la que pueda llamar desde python. Traté de seguir la respuesta ...
¿Salida de VectorAssembler solo a DenseVector?
Hay algo muy molesto con la función de VectorAssembler. Actualmente estoy transformando un conjunto de columnas en una sola columna de vectores y luego uso la función StandardScaler para aplicar la escala a las características incluidas. Sin ...
sobrescribir una salida de chispa usando pyspark
Estoy tratando de sobrescribir un marco de datos Spark usando la siguiente opción en PySpark pero no tengo éxito spark_df.write.format('com.databricks.spark.csv').option("header", "true",mode='overwrite').save(self.output_file_path)el comando ...
Agregar columna a PySpark DataFrame dependiendo de si el valor de la columna está en otra columna
Tengo un PySpark DataFrame con estructura dada por [('u1', 1, [1 ,2, 3]), ('u1', 4, [1, 2, 3])].toDF('user', 'item', 'fav_items') Necesito agregar una columna más con 1 o 0 dependiendo de si 'item' está en 'fav_items' o no. Entonces yo ...
Pyspark: relleno hacia adelante con la última observación para un DataFrame
Usando Spark 1.5.1, He estado tratando de reenviar el rellenovalores nuloscon la última observación conocida parauna columnade mi DataFrame. Es posible comenzar con un valor nulo y, en este caso, rellenaría este valor nulo con la primera ...
¿Cómo filtrar según el valor de la matriz en PySpark?
Mi esquema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...
Hacer histograma con la columna Spark DataFrame
Estoy tratando de hacer un histograma con una columna de un marco de datos que se parece a DataFrame[C0: int, C1: int, ...]Si tuviera que hacer un histograma con la columna C1, ¿qué debería hacer? Algunas cosas que he intentado ...
¿Por qué obtengo resultados nulos de la función date_format () PySpark?
Supongamos que hay un marco de fecha con una columna compuesta de fechas como cadenas. Para ese supuesto, creamos el siguiente dataFrame como ejemplo: # Importing sql types from pyspark.sql.types import StringType, IntegerType, StructType, ...
Consultar tabla HIVE en pyspark
Estoy usando CDH5.5 Tengo una tabla creada en la base de datos predeterminada de HIVE y puedo consultarla desde el comando HIVE. Salida hive> use default; OK Time taken: 0.582 seconds hive> show tables; OK bank Time taken: 0.341 seconds, ...