Resultados de la búsqueda a petición "bigdata"
Asignación de Elasticsearch: cambie el nombre del campo existente
¿Hay alguna forma de cambiar el nombre de un elemento en una asignación de Elasticsearch existente sin tener que agregar un nuevo elemento? Si es así, ¿cuál es la mejor manera de hacerlo para evitar romper el mapeo existente? p.ej. de ...
Cómo reiniciar una tarea fallida en Airflow
Estoy usando unFiscal localy mi dag tiene3 tareasdonde la tarea (C) depende de la tarea (A). La tarea (B) y la tarea (A) pueden ejecutarse en paralelo, algo como a continuación A -> C B Entonces la tarea (A) ha falladoy perola tarea (B) ...
¿Por qué dos vectores no es similitud pero el resultado es 1?
Estoy usando la fórmula de similitud de coseno para calcular la similitud entre dos vectores. Probé dos vectores diferentes como este: Vector1 (-1237373741, 27, 1, 1, 331289590, 1818540802) Vector2 (-1237373741, 49, 1, 1, 331289590, ...
Cómo comparar dos marcos de datos e imprimir columnas que son diferentes en escala
Tenemos dos marcos de datos aquí: el marco de datos esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...
Buscar en 300 millones de direcciones con pg_trgm
Tengo 300 millones de direcciones en mi base de datos PostgreSQL 9.3 y quiero usar pg_trgm para buscar difusamente las filas. El objetivo final es implementar una función de búsqueda al igual que la búsqueda de Google Map. Cuando utilicé pg_trgm ...
PySpark: inconsistencia en la conversión de marca de tiempo a entero en el marco de datos
Tengo un marco de datos con una estructura aproximada como la siguiente: +-------------------------+-------------------------+--------+ | timestamp | adj_timestamp | values | +-------------------------+-------------------------+--------+ | ...
Necesito comparar dos marcos de datos para la validación de tipo y enviar un valor distinto de cero como salida
Estoy comparando dos marcos de datos (básicamente, estos son esquemas de dos fuentes de datos diferentes, uno de la colmena y otro de SAS9.2) Necesito validar la estructura para ambas fuentes de datos, así que convertí el esquema en dos marcos ...
Determinar el número óptimo de particiones Spark en función de los trabajadores, los núcleos y el tamaño del Marco de datos
Hay varios conceptos similares pero diferentes en Spark-land que rodean cómo el trabajo se cultiva en diferentes nodos y se ejecuta simultáneamente. Específicamente, hay: El nodo Spark Driver sparkDriverCount) El número de nodos de trabajo ...
¿Qué sucede si un RDD no cabe en la memoria en Spark? [duplicar
Esta pregunta ya tiene una respuesta aquí: ¿Qué hará chispa si no tengo suficiente memoria? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 respuestas Hasta donde yo sé, Spark intenta hacer todos los cálculos en ...
¿Es una buena práctica realizar consultas de sincronización de base de datos o llamadas relajantes en trabajos de Kafka streams?
Utilizo transmisiones de Kafka para procesar datos en tiempo real, en las tareas de transmisiones de Kafka, necesito acceder a MySQL para consultar datos y llamar a otro servicio tranquilo. Todas las operaciones son sincrónicas. Me temo que ...