Resultados de la búsqueda a petición "pyspark"
Error de gasoducto
Estoy tratando de ejecutar un modelo de regresión logística multinomial from pyspark.sql import SparkSession spark = SparkSession.builder.appName('prepare_data').getOrCreate() from pyspark.sql.types import * spark.sql("DROP TABLE IF EXISTS ...
Transposición de trama de datos con pyspark en Apache Spark
Tengo un marco de datosdf que tienen la siguiente estructura: +-----+-----+-----+-------+ | s |col_1|col_2|col_...| +-----+-------------------+ | f1 | 0.0| 0.6| ... | | f2 | 0.6| 0.7| ... | | f3 | 0.5| 0.9| ... | | ...| ...| ...| ... |Y quiero ...
¿Cómo hacer lo contrario de explotar en PySpark?
Digamos que tengo unDataFrame con una columna para usuarios y otra columna para palabras que han escrito: Row(user='Bob', word='hello') Row(user='Bob', word='world') Row(user='Mary', word='Have') Row(user='Mary', word='a') Row(user='Mary', ...
Cómo definir UDAF sobre ventanas de tiempo de evento en PySpark 2.1.0
[/imgs/NQvm9.png] Estoy escribiendo una aplicación Python que desliza una ventana sobre una secuencia de valores, cada uno con una marca de tiempo. Quiero aplicar una función a los valores en la ventana deslizante para calcular una puntuación ...
Apache Spark Python Cosine Similitud sobre DataFrames
Para un sistema de recomendación, necesito calcular la similitud de coseno entre todas las columnas de un Spark DataFrame completo. En Pandas solía hacer esto: import sklearn.metrics as metrics import pandas as pd df= ...
Coincidencia eficiente de cadenas en Apache Spark
Usando una herramienta de OCR, extraje textos de capturas de pantalla (aproximadamente 1-5 oraciones cada uno). Sin embargo, al verificar manualmente el texto extraído, noté varios errores que ocurren de vez en cuando. Dado el texto "¡Hola! ¡Me ...
Pyspark: Reemplazar valor en una columna buscando un diccionario
Soy un novato en PySpark. Tengo una chispaDataFrame df que tiene una columna 'tipo_dispositivo'. Quiero reemplazar cada valor que está en "Tableta" o "Teléfono" a "Teléfono", y reemplazar "PC" a "Escritorio". En Python puedo hacer lo ...
¿Cómo calcular la diferencia de fecha en pyspark?
Tengo datos como este: df = sqlContext.createDataFrame([ ('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ('1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), ('1986/10/16', 'null', '4.0')], ('low', 'high', 'normal'))Quiero ...
Seleccionar solo nombres de columnas numéricas / de cadena de un Spark DF en pyspark
Tengo un SparkDataFrame en pyspark (2.1.0) y estoy buscando obtener solo los nombres de columnas numéricas o columnas de cadena. Por ejemplo, este es el esquema de mi DF: root |-- Gender: string (nullable = true) |-- SeniorCitizen: string ...
Combinar lista de listas en pySpark RDD
Tengo listas de tuplas que quiero combinar en una lista. He podido procesar los datos usando lambdas y comprensión de listas donde estoy cerca de poder usar reduceByKey pero no estoy seguro de cómo fusionar las listas. Entonces el formato ...