Resultados de la búsqueda a petición "spark-streaming"
agregar filtro de idioma a twitter popularhashtags - scala
Soy nuevo en Spark y Scala. Ejecuté las etiquetas de hash populares de trabajo de transmisión de Spark-twitter. Agregué un filtro para algunas palabras y pude filtrar los tweets: val filter = Array("spark", "Big Data") val stream ...
Spark Streaming en un directorio S3
Así que tengo miles de eventos que se transmiten a través de Amazon Kinesis a SQS y luego se descargan en un directorio S3. Aproximadamente cada 10 minutos, se crea un nuevo archivo de texto para volcar los datos de Kinesis en S3. Me gustaría ...
Detenga el contexto de transmisión en Spark Streaming después de un período de tiempo
Al crear una aplicación que recibe DStreams de Twitter, la única forma de detener el contexto de Streaming es deteniendo la ejecución. Me pregunto si hay una manera de establecer una hora y terminar el socket de transmisión sin detener toda la ...
¿Qué significa "streaming" en Apache Spark y Apache Flink?
Como fui aApache Spark Streaming [https://spark.apache.org/streaming/]Sitio web, vi una oración: Spark Streaming facilita la creación de aplicaciones de transmisión escalables y tolerantes a fallas. Y enApache Flink ...
Error de 'Conexión rechazada' al ejecutar Spark Streaming en la máquina local
Sé que ya hay muchos hilos sobre problemas de 'conexión de transmisión de chispa rechazada'. Pero la mayoría de estos están en Linux o al menos apuntan a HDFS. Estoy ejecutando esto en mi computadora portátil local con Windows. Estoy ejecutando ...
Procese Spark Streaming rdd y almacene en un solo archivo HDFS
Estoy usando Kafka Spark Streaming para obtener datos de transmisión. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Estoy usando este DStream y procesando ...
Colmena Crear múltiples archivos pequeños para cada inserción en HDFS
lo siguiente ya se ha logrado Kafka Producer extrae datos de Twitter usando Spark Streaming.Kafka Consumer ingiere datos en la tabla externa de Hive (en HDFS).mientras esto funciona bien hasta ahora. Solo estoy enfrentando un problema, mientras ...
Suelte el marco de datos de chispa del caché
Estoy usando Spark 1.3.0 con python api. Al transformar grandes marcos de datos, guardo en caché muchos DF para una ejecución más rápida; df1.cache() df2.cache()Una vez que el uso de cierto marco de datos ha terminado y ya no es necesario, ¿cómo ...
Lectura de Cassandra usando Spark Streaming
Tengo un problema cuando uso la transmisión por chispa para leer de ...
¿Habrá algún escenario en el que los Spark RDD no puedan satisfacer la inmutabilidad?
Los Spark RDD se construyen de manera inmutable, tolerante a fallas y resistente. ¿Los RDD satisfacen la inmutabilidad en todos los escenarios? ¿O hay algún caso, ya sea en Streaming o Core, donde RDD podría no satisfacer la inmutabilidad?