Resultados de la búsqueda a petición "apache-spark"
Rellenar huecos en series temporales Spark
Tengo un problema con los datos de series temporales. Debido a fallas de alimentación faltan algunas marcas de tiempo en el conjunto de datos. Necesito llenar estos vacíos agregando filas, y después de eso, puedo interpolar los valores ...
Cómo comparar dos marcos de datos e imprimir columnas que son diferentes en escala
Tenemos dos marcos de datos aquí: el marco de datos esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...
Apache Spark Dataframe Groupby agg () para varias columnas
tengo unDataFrame con 3 columnas, es decirId, First Name, Last Name quiero aplicarGroupBy sobre la base deId y quiere coleccionarFirst Name, Last Name columna como lista. Ejemplo: tengo un DF como este +---+-------+--------+ |id |fName |lName ...
Inicialice PySpark para predefinir la variable 'sc' de SparkContext
Al usar PySpark, me gustaría que se inicialice un SparkContext (en modo cliente de hilo) al crear un nuevo cuaderno. Los siguientes tutoriales describen cómo hacer esto en versiones anteriores de ipython / jupyter ...
Analítico en Spark Dataframe
En este problema tenemos dos gerentes M1 y M2. En el equipo del gerente M1 tenemos dos empleados e1 y e2 y en el equipo de M2 tenemos dos empleados e4 y e5. A continuación se encuentra la Jerarquía de Gerentes y Empleados, 1) M1 a. e1 b. e2 2) ...
Scala y Spark: ¿cómo pasar por una imagen?
Tengo algunos archivos binarios que son imágenes y me gustaría revisarlos, distribuyendo los píxeles: cada nodo de mi clúster debe obtener el RGB de un grupo diferente de píxeles que los de otro nodo, y almacenar estos RGB en un Colección ...
¿Cómo ejecutar el script Scala usando spark-submit (de manera similar al script Python)?
Intento ejecutar un script Scala simple usando Spark como se describe en el Tutorial de inicio rápido de Spark [https://spark.apache.org/docs/1.2.0/quick-start.html]. No tengo problemas para ejecutar el siguiente código de ...
Cómo probar Spark RDD
No estoy seguro de si podemos probar los RDD en Spark. Encontré un artículo donde dice que burlarse de un RDD no es una buena idea. ¿Existe alguna otra forma o práctica recomendada para probar los RDD?
Problema de Uima Ruta sin memoria en contexto de chispa
Estoy corriendo unUIMAaplicación en apache spark. Hay millones de páginas que vienen en lotes para ser procesadas porRUTA UIMApara el cálculo Pero en algún momento me enfrento a una excepción de falta de memoria. A veces arroja una excepción a ...
Obtener etiquetas de las etapas StringIndexer dentro de la tubería en Spark (pyspark)
estoy usandoSpark ypyspark y tengo unpipeline configurar con un montón deStringIndexer objetos, que uso para codificar las columnas de cadena a columnas de índices: indexers = [StringIndexer(inputCol=column, outputCol=column ...