Resultados de la búsqueda a petición "spark-structured-streaming"

0 la respuesta

Spark Agregación de transmisión estructurada para datos de marcas de tiempo antiguas

ntento agregar el recuento de registros cada 10 segundos utilizando la transmisión estructurada para los siguientes datos entrantes de Kafk { "ts2" : "2018/05/01 00:02:50.041", "serviceGroupId" : "123", "userId" : "avv-0", "stream" : "", ...

0 la respuesta

¿Cómo se establece el número de tareas y particiones cuando se usa MemoryStream?

Estoy tratando de entender un comportamiento extraño que observé en mi aplicación de transmisión de estructura Spark que se ejecuta enlocal[*] modo Tengo 8 núcleos en mis máquinas. Si bien la mayoría de mis lotes tienen 8 particiones, de vez ...

1 la respuesta

Spark Structured Streaming usando sockets, configure SCHEMA, Display DATAFRAME en la consola

¿Cómo puedo configurar un esquema para una transmisión?DataFrame en PySpark from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import ...

1 la respuesta

¿Por qué falla el uso de caché en conjuntos de datos de transmisión con "AnalysisException: las consultas con fuentes de transmisión deben ejecutarse con writeStream.start ()"?

SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-test") .getOrCreate .readStream .schema(schema) ...

1 la respuesta

Spark Structured Stream recibe mensajes de solo una partición de Kafka

Tengo la situación cuando la chispa puede transmitir y recibir mensajes de solo una partición del tema de Kafka 2-patition. Mis temas:C:\bigdata\kafka_2.11-0.10.1.1\bin\windows>kafka-topics --create --zookeeper localhost:2181 --partitions 2 ...

1 la respuesta

Cómo definir UDAF sobre ventanas de tiempo de evento en PySpark 2.1.0

[/imgs/NQvm9.png] Estoy escribiendo una aplicación Python que desliza una ventana sobre una secuencia de valores, cada uno con una marca de tiempo. Quiero aplicar una función a los valores en la ventana deslizante para calcular una puntuación ...

1 la respuesta

¿Cómo leer registros en formato JSON de Kafka usando Structured Streaming?

Estoy tratando de usarenfoque de transmisión estructurada [http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html] usando Spark-Streaming basado en DataFrame / Dataset API para cargar un flujo de datos desde Kafka. Yo ...

1 la respuesta

Spark Structured Streaming - Procesando cada fila

Estoy usando transmisión estructurada con Spark 2.1.1. Necesito aplicar algo de lógica empresarial a los mensajes entrantes (de la fuente Kafka). esencialmente, necesito recoger el mensaje, obtener algunos valores clave, buscarlos en HBase y ...

1 la respuesta

¿Cómo mostrar un DataFrame de transmisión (ya que el programa falla con AnalysisException)?

Así que tengo algunos datos que estoy transmitiendo en un tema de Kafka, tomo estos datos de transmisión y los coloco en unDataFrame. Quiero mostrar los datos dentro del DataFrame: import os from kafka import KafkaProducer from pyspark.sql ...

1 la respuesta

Excepción de transmisión estructurada cuando se utiliza el modo de salida anexa con marca de agua

A pesar de que estoy usandowithWatermark(), Recibo el siguiente mensaje de error cuando ejecuto mi trabajo de chispa: Excepción en el subproceso "main" org.apache.spark.sql.AnalysisException: el modo de salida de anexos no es compatible cuando ...