Resultados de la búsqueda a petición "bigdata"
Buscar en 300 millones de direcciones con pg_trgm
Tengo 300 millones de direcciones en mi base de datos PostgreSQL 9.3 y quiero usar pg_trgm para buscar difusamente las filas. El objetivo final es implementar una función de búsqueda al igual que la búsqueda de Google Map. Cuando utilicé pg_trgm ...
Cómo comparar dos marcos de datos e imprimir columnas que son diferentes en escala
Tenemos dos marcos de datos aquí: el marco de datos esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...
Estoy tratando de obtener una lista de todos los autores que han tenido más de 3 trabajos - DBpedia Sparql
Estoy tratando de obtener una lista de todos los autores que han realizado 3 o más trabajos (en DBpedia). mi ejemplo se puede ejecutar en:http://dbpedia.org/sparql [http://dbpedia.org/sparql] código baseselect (count(?work) as ?totalWork), ...
Procese un gran archivo GEOJson con jq
Dado un archivo GEOJson de la siguiente manera: - { "type": "FeatureCollection", "features": [ { "type": "Feature", "properties": { "FEATCODE": 15014 }, "geometry": { "type": "Polygon", "coordinates": [ ..... Quiero terminar con lo siguiente: ...
¿Por qué dos vectores no es similitud pero el resultado es 1?
Estoy usando la fórmula de similitud de coseno para calcular la similitud entre dos vectores. Probé dos vectores diferentes como este: Vector1 (-1237373741, 27, 1, 1, 331289590, 1818540802) Vector2 (-1237373741, 49, 1, 1, 331289590, ...
Cómo reiniciar una tarea fallida en Airflow
Estoy usando unFiscal localy mi dag tiene3 tareasdonde la tarea (C) depende de la tarea (A). La tarea (B) y la tarea (A) pueden ejecutarse en paralelo, algo como a continuación A -> C B Entonces la tarea (A) ha falladoy perola tarea (B) ...
Asignación de Elasticsearch: cambie el nombre del campo existente
¿Hay alguna forma de cambiar el nombre de un elemento en una asignación de Elasticsearch existente sin tener que agregar un nuevo elemento? Si es así, ¿cuál es la mejor manera de hacerlo para evitar romper el mapeo existente? p.ej. de ...
Cómo manejar el error y no comprometerse cuando use Kafka Streams DSL
Para Kafka Streams, si usamos una API de procesador de nivel inferior, podemos controlar la confirmación o no. Entonces, si ocurren problemas en nuestro código, y no queremos confirmar este mensaje. En este caso, Kafka reenviará este mensaje ...
Iterar un RDD y actualizar una colección mutable devuelve una colección vacía
Soy nuevo en Scala y Spark y me gustaría recibir ayuda para comprender por qué el siguiente código no produce el resultado deseado. Estoy comparando dos tablas Mi esquema de salida deseado es: case class DiscrepancyData(fieldKey:String, ...
¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?
Una vez cada 2 horas, se está ejecutando el trabajo de chispa para convertir algunos archivos tgz a parquet. El trabajo agrega los nuevos datos a un parquet existente en ...