Resultados de la búsqueda a petición "apache-spark"
¿Es posible leer archivos pdf / audio / video (datos no estructurados) usando Apache Spark?
¿Es posible leer archivos pdf / audio / video (datos no estructurados) usando Apache Spark? Por ejemplo, tengo miles de facturas en pdf y quiero leer datos de ellas y realizar algunos análisis sobre eso. ¿Qué pasos debo hacer para procesar datos ...
Acceso a la colección de DStreams
Estoy tratando de acceder a una colección de DStreams filtrados obtenidos como en la solución a esta pregunta:Spark Streaming: la mejor manera de dividir el flujo de entrada según el parámetro de ...
En Pyspark HiveContext, ¿cuál es el equivalente de SQL OFFSET?
O una pregunta más específica sería ¿cómo puedo procesar grandes cantidades de datos que no caben en la memoria a la vez? Con OFFSET estaba tratando de hacer hiveContext.sql ("seleccionar ... límite 10 offset 10") mientras incrementaba el offset ...
¿Podemos utilizar múltiples sesiones de chispas para acceder a dos servidores de Hive diferentes?
Tengo un escenario para comparar dos tablas diferentes de origen y destino de dos servidores remotos separados, ¿podemos usar dos?SparkSessions algo como lo intenté a continuación: - val spark = SparkSession.builder().master("local") ...
Ejecutar zeppelin en modo de grupo de chispas
Estoy usando este tutorialgrupo de chispas en modo hilo en contenedor acoplable [https://zeppelin.apache.org/docs/0.7.0/install/spark_cluster_mode.html#spark-on-yarn-mode] para lanzar zeppelin en el grupo de chispas en modo hilo. Sin embargo, ...
¿Cómo obtener compensaciones de Kafka para una consulta estructurada para una gestión de compensación manual y confiable?
Spark 2.2 introdujo una fuente de transmisión estructurada de Kafka. Según tengo entendido, se basa en el directorio de puntos de control HDFS para almacenar compensaciones y garantizar la entrega de un mensaje "exactamente una vez". Pero viejos ...
Spark Structured Streaming con integración Hbase
Estamos haciendo streaming de datos kafka que se recopilan de MySQL. Ahora, una vez que se hayan realizado todos los análisis, quiero guardar mis datos directamente en Hbase. Tengo a través del documento de transmisión estructurado por chispa, ...
Spark: mejor práctica para recuperar grandes datos de RDD a la máquina local
Tengo un gran RDD (1 gb) en el grupo de hilos. En la máquina local, que usa este clúster, solo tengo 512 mb. Me gustaría iterar sobre los valores en RDD en mi máquina local. No puedo usar collect (), porque crearía una matriz demasiado grande ...
Cómo Spark maneja datos más grandes que la memoria del clúster
Si solo tengo 1 ejecutor con memoria de 25 GB y si solo puede ejecutar una tarea a la vez, ¿es posible procesar (transformación y acción) datos de 1 TB en caso afirmativo, cómo se leerán y dónde se almacenarán los datos intermedios? ? También ...
¿Cómo entender el tipo de formato de libsvm de Spark MLlib?
Soy nuevo para aprender Spark MLlib. Cuando estaba leyendo sobre el ejemplo de regresión logística binomial, no entiendo el tipo de formato de "libsvm". ( Regresión logística ...