Resultados de la búsqueda a petición "spark-streaming"

1 la respuesta

agregar filtro de idioma a twitter popularhashtags - scala

Soy nuevo en Spark y Scala. Ejecuté las etiquetas de hash populares de trabajo de transmisión de Spark-twitter. Agregué un filtro para algunas palabras y pude filtrar los tweets: val filter = Array("spark", "Big Data") val stream ...

1 la respuesta

Spark Streaming en un directorio S3

Así que tengo miles de eventos que se transmiten a través de Amazon Kinesis a SQS y luego se descargan en un directorio S3. Aproximadamente cada 10 minutos, se crea un nuevo archivo de texto para volcar los datos de Kinesis en S3. Me gustaría ...

2 la respuesta

Detenga el contexto de transmisión en Spark Streaming después de un período de tiempo

Al crear una aplicación que recibe DStreams de Twitter, la única forma de detener el contexto de Streaming es deteniendo la ejecución. Me pregunto si hay una manera de establecer una hora y terminar el socket de transmisión sin detener toda la ...

1 la respuesta

¿Qué significa "streaming" en Apache Spark y Apache Flink?

Como fui aApache Spark Streaming [https://spark.apache.org/streaming/]Sitio web, vi una oración: Spark Streaming facilita la creación de aplicaciones de transmisión escalables y tolerantes a fallas. Y enApache Flink ...

1 la respuesta

Error de 'Conexión rechazada' al ejecutar Spark Streaming en la máquina local

Sé que ya hay muchos hilos sobre problemas de 'conexión de transmisión de chispa rechazada'. Pero la mayoría de estos están en Linux o al menos apuntan a HDFS. Estoy ejecutando esto en mi computadora portátil local con Windows. Estoy ejecutando ...

2 la respuesta

Procese Spark Streaming rdd y almacene en un solo archivo HDFS

Estoy usando Kafka Spark Streaming para obtener datos de transmisión. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Estoy usando este DStream y procesando ...

3 la respuesta

Colmena Crear múltiples archivos pequeños para cada inserción en HDFS

lo siguiente ya se ha logrado Kafka Producer extrae datos de Twitter usando Spark Streaming.Kafka Consumer ingiere datos en la tabla externa de Hive (en HDFS).mientras esto funciona bien hasta ahora. Solo estoy enfrentando un problema, mientras ...

2 la respuesta

Suelte el marco de datos de chispa del caché

Estoy usando Spark 1.3.0 con python api. Al transformar grandes marcos de datos, guardo en caché muchos DF para una ejecución más rápida; df1.cache() df2.cache()Una vez que el uso de cierto marco de datos ha terminado y ya no es necesario, ¿cómo ...

2 la respuesta

Lectura de Cassandra usando Spark Streaming

Tengo un problema cuando uso la transmisión por chispa para leer de ...

2 la respuesta

¿Habrá algún escenario en el que los Spark RDD no puedan satisfacer la inmutabilidad?

Los Spark RDD se construyen de manera inmutable, tolerante a fallas y resistente. ¿Los RDD satisfacen la inmutabilidad en todos los escenarios? ¿O hay algún caso, ya sea en Streaming o Core, donde RDD podría no satisfacer la inmutabilidad?