Этика robots.txt [закрыто]

У меня серьезный вопрос. Всегда ли этично игнорировать наличие файла robots.txt на веб-сайте? Вот некоторые из соображений, которые я имею в виду:

Если кто-то раскроет веб-сайт, он ожидает некоторых посещений. Конечно, веб-сканеры используют пропускную способность, не нажимая на объявления, которые могут поддержать сайт, но владелец сайта размещает свой сайт в Интернете, верно, так насколько разумно ожидать, что бот никогда их не посетит?

Некоторые сайты, по-видимому, используют файл robots.txt именно для того, чтобы предотвратить их сканирование Google или какой-либо другой утилитой, которая может захватывать цены и поэтому позволяет людям легко сравнивать цены. У них есть частные поисковые системы на сайте, поэтому они, очевидно, хотят, чтобы люди могли искать на сайте; очевидно, они просто не хотят, чтобы люди могли легко сравнивать их информацию с другими поставщиками.

Как я уже сказал, я не пытаюсь спорить; Я просто хотел бы знать, сталкивался ли кто-нибудь с делом, когда этически допустимо игнорировать наличие файла robots.txt? Я не могу вспомнить случай, когда допустимо игнорировать robots.txt главным образом потому, что люди (или компании) платят деньги за создание своих веб-сайтов, чтобы они могли сказать Googles / Yahoos / Other SE в мире, что они не хочу быть по своим показателям.

Чтобы поместить это обсуждение в контекст, я хотел бы создать веб-сайт для сравнения цен, и у одного из крупных поставщиков есть robots.txt, который в основном не позволяет никому захватывать их цены. Я хотел бы иметь возможность получить их информацию, но, как я уже сказал, я не могу оправдать, просто игнорируя пожелания владельца сайта.

Я видел очень острую дискуссию здесь, и поэтому я хотел бы услышать мнения разработчиков, которые следуют за переполнением стека.

Кстати, есть некоторое обсуждение этой темы наHacker News вопрос но они, кажется, в основном сосредоточены на правовых аспектах этого.

Ответы на вопрос(9)

Ваш ответ на вопрос