Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Rellenar huecos en series temporales Spark

Tengo un problema con los datos de series temporales. Debido a fallas de alimentación faltan algunas marcas de tiempo en el conjunto de datos. Necesito llenar estos vacíos agregando filas, y después de eso, puedo interpolar los valores ...

1 la respuesta

Cómo comparar dos marcos de datos e imprimir columnas que son diferentes en escala

Tenemos dos marcos de datos aquí: el marco de datos esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...

1 la respuesta

Apache Spark Dataframe Groupby agg () para varias columnas

tengo unDataFrame con 3 columnas, es decirId, First Name, Last Name quiero aplicarGroupBy sobre la base deId y quiere coleccionarFirst Name, Last Name columna como lista. Ejemplo: tengo un DF como este +---+-------+--------+ |id |fName |lName ...

1 la respuesta

Inicialice PySpark para predefinir la variable 'sc' de SparkContext

Al usar PySpark, me gustaría que se inicialice un SparkContext (en modo cliente de hilo) al crear un nuevo cuaderno. Los siguientes tutoriales describen cómo hacer esto en versiones anteriores de ipython / jupyter ...

1 la respuesta

Analítico en Spark Dataframe

En este problema tenemos dos gerentes M1 y M2. En el equipo del gerente M1 tenemos dos empleados e1 y e2 y en el equipo de M2 tenemos dos empleados e4 y e5. A continuación se encuentra la Jerarquía de Gerentes y Empleados, 1) M1 a. e1 b. e2 2) ...

2 la respuesta

Scala y Spark: ¿cómo pasar por una imagen?

Tengo algunos archivos binarios que son imágenes y me gustaría revisarlos, distribuyendo los píxeles: cada nodo de mi clúster debe obtener el RGB de un grupo diferente de píxeles que los de otro nodo, y almacenar estos RGB en un Colección ...

2 la respuesta

¿Cómo ejecutar el script Scala usando spark-submit (de manera similar al script Python)?

Intento ejecutar un script Scala simple usando Spark como se describe en el Tutorial de inicio rápido de Spark [https://spark.apache.org/docs/1.2.0/quick-start.html]. No tengo problemas para ejecutar el siguiente código de ...

2 la respuesta

Cómo probar Spark RDD

No estoy seguro de si podemos probar los RDD en Spark. Encontré un artículo donde dice que burlarse de un RDD no es una buena idea. ¿Existe alguna otra forma o práctica recomendada para probar los RDD?

1 la respuesta

Problema de Uima Ruta sin memoria en contexto de chispa

Estoy corriendo unUIMAaplicación en apache spark. Hay millones de páginas que vienen en lotes para ser procesadas porRUTA UIMApara el cálculo Pero en algún momento me enfrento a una excepción de falta de memoria. A veces arroja una excepción a ...

1 la respuesta

Obtener etiquetas de las etapas StringIndexer dentro de la tubería en Spark (pyspark)

estoy usandoSpark ypyspark y tengo unpipeline configurar con un montón deStringIndexer objetos, que uso para codificar las columnas de cadena a columnas de índices: indexers = [StringIndexer(inputCol=column, outputCol=column ...