Resultados de la búsqueda a petición "bigdata"

1 la respuesta

Buscar en 300 millones de direcciones con pg_trgm

Tengo 300 millones de direcciones en mi base de datos PostgreSQL 9.3 y quiero usar pg_trgm para buscar difusamente las filas. El objetivo final es implementar una función de búsqueda al igual que la búsqueda de Google Map. Cuando utilicé pg_trgm ...

1 la respuesta

Cómo comparar dos marcos de datos e imprimir columnas que son diferentes en escala

Tenemos dos marcos de datos aquí: el marco de datos esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...

2 la respuesta

Estoy tratando de obtener una lista de todos los autores que han tenido más de 3 trabajos - DBpedia Sparql

Estoy tratando de obtener una lista de todos los autores que han realizado 3 o más trabajos (en DBpedia). mi ejemplo se puede ejecutar en:http://dbpedia.org/sparql [http://dbpedia.org/sparql] código baseselect (count(?work) as ?totalWork), ...

4 la respuesta

Procese un gran archivo GEOJson con jq

Dado un archivo GEOJson de la siguiente manera: - { "type": "FeatureCollection", "features": [ { "type": "Feature", "properties": { "FEATCODE": 15014 }, "geometry": { "type": "Polygon", "coordinates": [ ..... Quiero terminar con lo siguiente: ...

1 la respuesta

¿Por qué dos vectores no es similitud pero el resultado es 1?

Estoy usando la fórmula de similitud de coseno para calcular la similitud entre dos vectores. Probé dos vectores diferentes como este: Vector1 (-1237373741, 27, 1, 1, 331289590, 1818540802) Vector2 (-1237373741, 49, 1, 1, 331289590, ...

1 la respuesta

Cómo reiniciar una tarea fallida en Airflow

Estoy usando unFiscal localy mi dag tiene3 tareasdonde la tarea (C) depende de la tarea (A). La tarea (B) y la tarea (A) pueden ejecutarse en paralelo, algo como a continuación A -> C B Entonces la tarea (A) ha falladoy perola tarea (B) ...

1 la respuesta

Asignación de Elasticsearch: cambie el nombre del campo existente

¿Hay alguna forma de cambiar el nombre de un elemento en una asignación de Elasticsearch existente sin tener que agregar un nuevo elemento? Si es así, ¿cuál es la mejor manera de hacerlo para evitar romper el mapeo existente? p.ej. de ...

1 la respuesta

Cómo manejar el error y no comprometerse cuando use Kafka Streams DSL

Para Kafka Streams, si usamos una API de procesador de nivel inferior, podemos controlar la confirmación o no. Entonces, si ocurren problemas en nuestro código, y no queremos confirmar este mensaje. En este caso, Kafka reenviará este mensaje ...

2 la respuesta

Iterar un RDD y actualizar una colección mutable devuelve una colección vacía

Soy nuevo en Scala y Spark y me gustaría recibir ayuda para comprender por qué el siguiente código no produce el resultado deseado. Estoy comparando dos tablas Mi esquema de salida deseado es: case class DiscrepancyData(fieldKey:String, ...

1 la respuesta

¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?

Una vez cada 2 horas, se está ejecutando el trabajo de chispa para convertir algunos archivos tgz a parquet. El trabajo agrega los nuevos datos a un parquet existente en ...