Является ли строка User-Agent в robots.txt точным совпадением или совпадением подстроки?
Когда сканер читает строку User-Agent файла robots.txt, он пытается точно сопоставить ее со своим собственным User-Agent или пытается сопоставить ее как подстроку своего User-Agent?
Все, что я прочитал, явно не отвечает на этот вопрос. Согласно сдругой поток StackOverflow это точное совпадение.
ОднакоПроект RFC заставляет меня поверить, что это совпадение подстроки. Например,User-Agent: Google
будет соответствовать "Googlebot" и "Googlebot-News". Вот соответствующая цитата из RFC:
Робот должен подчиняться первой записи в/robots.txt
которая содержит строку User-Agent, значение которой содержит маркер имени робота в качестве подстроки.
Кроме того, в разделе «Порядок приоритета для пользовательских агентов»Документация Googlebot это объясняет, что пользовательский агент для Google Images "Googlebot-Image/1.0
"соответствуетUser-Agent: googlebot
.
Я был бы признателен за любую ясность здесь, и ответ может быть более сложным, чем мой вопрос. Например, модуль роботов Евгения Калинина для узла упоминает разделение User-Agent для получения «токена имени» настрока 29 и сопоставление с этим. Если это правда, тоПользователь-агент Googlebot "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
"не будет соответствоватьUser-Agent: Googlebot
.