Resultados de la búsqueda a petición "apache-spark"
Spark controlador de conexión independiente al trabajador
Estoy tratando de alojar localmente un clúster independiente de chispa. Tengo dos máquinas heterogéneas conectadas en una LAN. Cada pieza de la arquitectura que se enumera a continuación se ejecuta en Docker. Tengo la ...
Agregar parte de la columna del esquema principal al elemento secundario en JSON anidado en el marco de datos de chispa
Tengo debajo de xml que estoy tratando de cargar en el marco de datos de chispa. <?xml version="1.0"?> <env:ContentEnvelope xsi:schemaLocation="http"> <env:Header> ...
Analizar CSV como DataFrame / DataSet con Apache Spark y Java
Soy nuevo en spark, y quiero usar group-by & reduce para encontrar lo siguiente de CSV (una línea por empleado): Department, Designation, costToCompany, State Sales, Trainee, 12000, UP Sales, Lead, 32000, AP Sales, Lead, 32000, LA Sales, Lead, ...
¿Cómo inicio sesión desde mi script Python Spark?
Tengo un programa Python Spark con el que ejecutospark-submit. Quiero poner declaraciones de registro en él. logging.info("This is an informative message.") logging.debug("This is a debug message.")Quiero usar el mismo registrador que Spark está ...
¿Cómo configurar Spark en Windows?
Estoy tratando de configurar Apache Spark en Windows. Después de buscar un poco, entiendo que el modo independiente es lo que quiero. ¿Qué binarios descargo para ejecutar Apache Spark en Windows? Veo distribuciones con hadoop y cdh en la página ...
Spark Indefinite Waiting con "Se le pide que envíe ubicaciones de salida del mapa para barajar"
Mis trabajos a menudo cuelgan con este tipo de mensaje: 14/09/01 00:32:18 INFO spark.MapOutputTrackerMasterActor: Asked to send map output locations for shuffle 0 to spark@*:37619Sería genial si alguien pudiera explicar qué está haciendo Spark ...
¿Hasta dónde llegará el caché Spark RDD?
Digamos que tengo tresRDD función de transformación llamadardd1: def rdd2 = rdd1.f1 def rdd3 = rdd2.f2 def rdd4 = rdd3.f3Ahora quiero guardar en cachérdd4entonces llamordd4.cache(). Mi pregunta: Será solo el resultado de la acción enrdd4 ser ...
Advertencia de causa UDF: CachedKafkaConsumer no se está ejecutando en UninterruptibleThread (KAFKA-1894)
En un habitualstructure_kafka_wordcount.py [https://gist.github.com/hrchu/2b2590f2f737ef430ac32b7f8edc15c0]código, Cuando divido líneas en palabras porudf como abajo, my_split = udf(lambda x: x.split(' '), ArrayType(StringType())) words ...
¿Cómo configurar hbase en spark?
¿Cuáles son los pasos para conectar spark a hbase? Tengo las direcciones maestras para ambos. ¿Acabo de agregar la dirección hbase en spark classpath?
¿Por qué falla el trabajo de Spark con "demasiados archivos abiertos"?
Recibo "demasiados archivos abiertos" durante la fase aleatoria de mi trabajo en Spark. ¿Por qué mi trabajo abre tantos archivos? ¿Qué pasos puedo tomar para tratar de que mi trabajo tenga éxito?