¿Es la línea User-Agent en robots.txt una coincidencia exacta o una coincidencia de subcadena?
Cuando un rastreador lee la línea User-Agent de un archivo robots.txt, ¿intenta hacerla coincidir exactamente con su User-Agent o intenta hacerlo como una subcadena de su User-Agent?
Todo lo que he leído no responde explícitamente a esta pregunta. De acuerdo aotro hilo de StackOverflow Es una coincidencia exacta.
sin embargo, elProyecto de RFC Me hace creer que es un partido de subcadena. Por ejemplo,User-Agent: Google
coincidirá con "Googlebot" y "Googlebot-News". Aquí está la cita relevante de la RFC:
El robot debe obedecer el primer registro en./robots.txt
que contiene una línea de User-Agent cuyo valor contiene el token de nombre del robot como subcadena.
Además, en la sección "Orden de prioridad para los usuarios-agentes" deDocumentación de Googlebot Explica que el agente de usuario para Google Images "Googlebot-Image/1.0
"emparejar paraUser-Agent: googlebot
.
Apreciaría cualquier claridad aquí, y la respuesta puede ser más complicada que mi pregunta. Por ejemplo, el módulo de robots de Eugene Kalinin para nodos menciona la división del Usuario-Agente para obtener el "token de nombre" enlínea 29 y emparejando contra eso. Si esto es verdad, entoncesUsuario-Agente de Googlebot "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
"no coincidiráUser-Agent: Googlebot
.