Proteção contra a raspagem da Web

Question

Jan 17, 2013, 11:46 AM

Proteção contra a raspagem da Web

Atualmente, faço parte de uma equipe que desenvolve um aplicativo que inclui um cliente front-end.

Por meio desse cliente, enviamos os dados do usuário, cada usuário tem um ID de usuário e o cliente fala com nosso servidor por meio de uma API RESTful solicitando dados ao servidor.

Por exemplo, digamos que temos um banco de dados de livros, e o usuário pode obter os 3 últimos livros que um autor escreveu. Valorizamos o tempo dos nossos usuários e gostaríamos que os usuários pudessem começar a usar o produto sem registro explícito.

Valorizamos nosso banco de dados, usamos nosso próprio software proprietário para preenchê-lo e gostaríamos de protegê-lo o máximo que pudermos.

Então basicamente a questão é:

O que podemos fazer para nos protegermos do web scraping?

Eu gostaria muito de aprender sobre algumas técnicas para proteger nossos dados, gostaríamos de impedir que os usuários digitassem cada nome de autor no painel de pesquisa do autor e buscassem os três principais livros que cada autor escreveu.

Qualquer sugestão de leitura seria apreciada.

Gostaria apenas de mencionar que estamos cientes dos captchas e gostaríamos de evitá-los tanto quanto possível