Resultados de la búsqueda a petición "apache-spark"
Spark Structured Streaming - Procesando cada fila
Estoy usando transmisión estructurada con Spark 2.1.1. Necesito aplicar algo de lógica empresarial a los mensajes entrantes (de la fuente Kafka). esencialmente, necesito recoger el mensaje, obtener algunos valores clave, buscarlos en HBase y ...
¿Cómo construir Dataframe desde un archivo Excel (xls, xlsx) en Scala Spark?
Tengo un granExcel(xlsx and xls) archivo con varias hojas y necesito convertirlo aRDD oDataframe para que pueda unirse a otrodataframe más tarde. Estaba pensando en usarApache POI [https://poi.apache.org/]y guardarlo comoCSV y luego ...
¿Cómo concatenar múltiples columnas en una sola columna (sin conocimiento previo de su número)?
Digamos que tengo el siguiente marco de datos: agentName|original_dt|parsed_dt| user|text| +----------+-----------+---------+-------+----+ |qwertyuiop| 0| 0|16102.0| 0| Deseo crear un nuevo marco de datos con una columna más que tenga ...
¿Cómo se distribuyen las tareas dentro de un clúster de Spark?
Entonces tengo una entrada que consiste en un conjunto de datos y varios algoritmos de ML (con ajuste de parámetros) usando scikit-learn. He intentado bastantes intentos sobre cómo ejecutar esto de la manera más eficiente posible, pero en este ...
La unión automática no funciona como se esperaba con la API DataFrame
Estoy tratando de obtener los últimos registros de una tabla usando self join. Funciona usandospark-sql pero no funciona con chispaDataFrame API ¿Alguien puede ayudar? ¿Es un error? Estoy usando Spark 2.2.0 en modo local Creando ...
Número de particiones predeterminado de Spark RDD
Versión: Spark 1.6.2, Scala 2.10 Estoy ejecutando los siguientes comandos en elspark-shell. Estoy tratando de ver la cantidad de particiones que Spark está creando por defecto. val rdd1 = sc.parallelize(1 to 10) println(rdd1.getNumPartitions) ...
Cómo chispa lee un archivo grande (petabyte) cuando el archivo no puede caber en la memoria principal de chispa
¿Qué pasará con los archivos grandes en estos casos? 1) Spark obtiene una ubicación de NameNode para datos. ¿Spark se detendrá en este mismo tiempo porque el tamaño de los datos es demasiado largo según la información de NameNode? 2) Spark hace ...
Acoplar JSON en estructura tabular utilizando solo la función Spark-Scala RDD
He anidado JSON y me gusta tener salida en estructura tabular. Puedo analizar los valores JSON individualmente, pero tengo algunos problemas para tabularlo. Puedo hacerlo fácilmente a través del marco de datos. Pero quiero hacerlo usando las ...
Cómo configurar una variable de entorno personalizada en EMR para que esté disponible para una aplicación de chispa
Necesito establecer una variable de entorno personalizada en EMR para que esté disponible al ejecutar una aplicación de chispa. He intentado agregar esto: ... --configurations '[ { "Classification": "spark-env", "Configurations": [ ...
Grupo Pyspark Dataframe mediante filtrado
Tengo un marco de datos como a continuación cust_id req req_met ------- --- ------- 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1Tengo que mirar a los clientes, ver cuántos requisitos tienen y ver si han cumplido al menos ...