Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

Error al explotar una columna de estructura en Spark

Tengo un marco de datos cuyo esquema se ve así: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string (nullable = ...

2 la respuesta

La agrupación de paquetes Python3 para PySpark resulta en importaciones faltantes

Estoy tratando de ejecutar un trabajo de PySpark que depende de ciertas bibliotecas de python3. Sé que puedo instalar estas bibliotecas en el Spark Cluster, pero como estoy reutilizando el clúster para varios trabajos, me gustaría agrupar todas ...

1 la respuesta

¿Cómo procesar los mensajes de Avro mientras lee una secuencia de mensajes de Kafka?

El siguiente código lee los mensajes de Kafka y los mensajes están en Avro, entonces, ¿cómo analizo el mensaje y lo pongo en un marco de datos en Spark 2.2.0? Dataset<Row> df = sparkSession.readStream() ...

5 la respuesta

¿Por qué PySpark no puede encontrar py4j.java_gateway?

Instalé Spark, ejecuté el ensamblaje sbt y puedo abrir bin / pyspark sin ningún problema. Sin embargo, estoy teniendo problemas para cargar el módulo pyspark en ipython. Recibo el siguiente error: In [1]: import ...

8 la respuesta

Cómo configurar la memoria de Apache Spark Executor

¿Cómo puedo aumentar la memoria disponible para los nodos del ejecutor de chispa Apache? Tengo un archivo de 2 GB que es adecuado para cargar en Apache Spark. Estoy ejecutando apache spark por el momento en 1 máquina, por lo que el controlador ...

1 la respuesta

Llamar a JDBC para impala / colmena desde dentro de un trabajo de chispa y crear una tabla

Estoy tratando de escribir un trabajo de chispa en scala que abriría una conexión jdbc con Impala y me permitiría crear una tabla y realizar otras operaciones. ¿Cómo hago esto? Cualquier ejemplo sería de gran ayuda. ¡Gracias!

2 la respuesta

¿Cuál es la diferencia entre spark-submit y pyspark?

Si inicio pyspark y luego ejecuto este comando: import my_script; spark = my_script.Sparker(sc); spark.collapse('./data/')Todo está bien. Sin embargo, si trato de hacer lo mismo a través de la línea de comandos y envío de chispa, aparece un ...

3 la respuesta

¿Cómo funciona la función mapPartitions de pyspark?

Así que estoy tratando de aprender Spark usando Python (Pyspark). Quiero saber como funciona la funcionmapPartitions trabajo. Esa es la entrada que toma y la salida que da. No pude encontrar ningún ejemplo adecuado de Internet. Digamos que tengo ...

3 la respuesta

Cómo obtener elementos por índice en Spark RDD (Java)

Conozco el método rdd.first () que me da el primer elemento en un RDD. También está el método rdd.take (num) que me da los primeros elementos "num". Pero, ¿no existe la posibilidad de obtener un elemento por índice? Gracias.

2 la respuesta

Qué función en spark se usa para combinar dos RDD por teclas

Digamos que tengo los siguientes dos RDD, con los siguientes valores de pares de claves. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]y rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]Ahora, quiero unirlos por valores ...