Diseño de un rastreador web

Question

Apr 29, 2011, 06:37 PM

data-structures search-engine web-crawler google-search large-data-volumes

Diseño de un rastreador web

Me encontré con una pregunta de entrevista "Si estuviera diseñando un rastreador web, ¿cómo evitaría entrar en bucles infinitos?" Y estoy tratando de responderla.

¿Cómo comienza todo desde el principio? Digamos que Google comenzó con algunas páginas centrales, digamos cientos de ellas (cómo se encontraron estas páginas centrales en primer lugar es una subpregunta diferente). A medida que Google sigue los enlaces de una página, etc., sigue haciendo una tabla hash para asegurarse de que no siga las páginas visitadas anteriormente.

¿Qué pasa si la misma página tiene 2 nombres (URL) decir en estos días cuando tenemos acortadores de URL, etc.

He tomado a Google como ejemplo. Aunque Google no filtra cómo funcionan sus algoritmos de rastreador web y el ranking de la página, etc., ¿adivina?