Resultados de la búsqueda a petición "bigdata"

1 la respuesta

Asignación de Elasticsearch: cambie el nombre del campo existente

¿Hay alguna forma de cambiar el nombre de un elemento en una asignación de Elasticsearch existente sin tener que agregar un nuevo elemento? Si es así, ¿cuál es la mejor manera de hacerlo para evitar romper el mapeo existente? p.ej. de ...

1 la respuesta

Cómo reiniciar una tarea fallida en Airflow

Estoy usando unFiscal localy mi dag tiene3 tareasdonde la tarea (C) depende de la tarea (A). La tarea (B) y la tarea (A) pueden ejecutarse en paralelo, algo como a continuación A -> C B Entonces la tarea (A) ha falladoy perola tarea (B) ...

1 la respuesta

¿Por qué dos vectores no es similitud pero el resultado es 1?

Estoy usando la fórmula de similitud de coseno para calcular la similitud entre dos vectores. Probé dos vectores diferentes como este: Vector1 (-1237373741, 27, 1, 1, 331289590, 1818540802) Vector2 (-1237373741, 49, 1, 1, 331289590, ...

1 la respuesta

Cómo comparar dos marcos de datos e imprimir columnas que son diferentes en escala

Tenemos dos marcos de datos aquí: el marco de datos esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...

1 la respuesta

Buscar en 300 millones de direcciones con pg_trgm

Tengo 300 millones de direcciones en mi base de datos PostgreSQL 9.3 y quiero usar pg_trgm para buscar difusamente las filas. El objetivo final es implementar una función de búsqueda al igual que la búsqueda de Google Map. Cuando utilicé pg_trgm ...

1 la respuesta

PySpark: inconsistencia en la conversión de marca de tiempo a entero en el marco de datos

Tengo un marco de datos con una estructura aproximada como la siguiente: +-------------------------+-------------------------+--------+ | timestamp | adj_timestamp | values | +-------------------------+-------------------------+--------+ | ...

1 la respuesta

Necesito comparar dos marcos de datos para la validación de tipo y enviar un valor distinto de cero como salida

Estoy comparando dos marcos de datos (básicamente, estos son esquemas de dos fuentes de datos diferentes, uno de la colmena y otro de SAS9.2) Necesito validar la estructura para ambas fuentes de datos, así que convertí el esquema en dos marcos ...

1 la respuesta

Determinar el número óptimo de particiones Spark en función de los trabajadores, los núcleos y el tamaño del Marco de datos

Hay varios conceptos similares pero diferentes en Spark-land que rodean cómo el trabajo se cultiva en diferentes nodos y se ejecuta simultáneamente. Específicamente, hay: El nodo Spark Driver sparkDriverCount) El número de nodos de trabajo ...

1 la respuesta

¿Qué sucede si un RDD no cabe en la memoria en Spark? [duplicar

Esta pregunta ya tiene una respuesta aquí: ¿Qué hará chispa si no tengo suficiente memoria? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 respuestas Hasta donde yo sé, Spark intenta hacer todos los cálculos en ...

1 la respuesta

¿Es una buena práctica realizar consultas de sincronización de base de datos o llamadas relajantes en trabajos de Kafka streams?

Utilizo transmisiones de Kafka para procesar datos en tiempo real, en las tareas de transmisiones de Kafka, necesito acceder a MySQL para consultar datos y llamar a otro servicio tranquilo. Todas las operaciones son sincrónicas. Me temo que ...