Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Forma óptima de crear una tubería ml en Apache Spark para el conjunto de datos con un alto número de columnas

Estoy trabajando con Spark 2.1.1 en un conjunto de datos con ~ 2000 características y estoy tratando de crear una Tubería ML básica, que consta de algunos Transformadores y un Clasificador. Supongamos, por simplicidad, que el Pipeline con el que ...

1 la respuesta

¿Cómo agrupar por elemento común en la matriz?

Estoy tratando de encontrar la solución en spark para agrupar datos con un elemento común en una matriz. key value [k1,k2] v1 [k2] v2 [k3,k2] v3 [k4] v4Si algún elemento coincide en la clave, tenemos que asignar el mismo groupid a eso. (Grupo ...

1 la respuesta

Cómo definir UDAF sobre ventanas de tiempo de evento en PySpark 2.1.0

[/imgs/NQvm9.png] Estoy escribiendo una aplicación Python que desliza una ventana sobre una secuencia de valores, cada uno con una marca de tiempo. Quiero aplicar una función a los valores en la ventana deslizante para calcular una puntuación ...

2 la respuesta

La cadena de la columna de chispa se reemplaza cuando está presente en otra columna (fila)

Me gustaría eliminar cadenas decol1 que están presentes encol2: val df = spark.createDataFrame(Seq( ("Hi I heard about Spark", "Spark"), ("I wish Java could use case classes", "Java"), ("Logistic regression models are neat", "models") ...

1 la respuesta

Apache Spark Python Cosine Similitud sobre DataFrames

Para un sistema de recomendación, necesito calcular la similitud de coseno entre todas las columnas de un Spark DataFrame completo. En Pandas solía hacer esto: import sklearn.metrics as metrics import pandas as pd df= ...

1 la respuesta

Transmisión estructurada de Spark: múltiples sumideros

Estamos consumiendo de Kafka usando transmisión estructurada y escribiendo el conjunto de datos procesados en s3. También queremos escribir los datos procesados en Kafka en el futuro, ¿es posible hacerlo desde la misma consulta de transmisión? ...

2 la respuesta

Asignación de json a la clase de caso con Spark (espacios en el nombre del campo)

Estoy tratando de leer un archivo json con la chispaDataset API, el problema es que este json contiene espacios en algunos de los nombres de campo. Esta sería una fila json {"Field Name" : "value"}Mi clase de caso debe ser así case class ...

2 la respuesta

¿Cómo deserializar registros de Kafka usando Structured Streaming en Java?

Yo uso Spark2.1. Estoy tratando de leer registros de Kafka usando Spark Structured Streaming, deserializarlos y aplicar agregaciones después. Tengo el siguiente código: SparkSession spark = SparkSession .builder() ...

1 la respuesta

Coincidencia eficiente de cadenas en Apache Spark

Usando una herramienta de OCR, extraje textos de capturas de pantalla (aproximadamente 1-5 oraciones cada uno). Sin embargo, al verificar manualmente el texto extraído, noté varios errores que ocurren de vez en cuando. Dado el texto "¡Hola! ¡Me ...

1 la respuesta

Filtrado de chispas con expresiones regulares

Estoy tratando de filtrar los datos del archivo en datos buenos y malos por fecha, por lo tanto, obtendré 2 archivos de resultados. Desde el archivo de prueba, las primeras 4 líneas deben ir en datos buenos y las últimas 2 líneas en datos ...