Бесплатные большие наборы данных для экспериментов с Hadoop

Знаете ли вы какие-нибудь большие наборы данных для экспериментов с Hadoop, которые бесплатны / дешевы? Любые связанные указатели / ссылки приветствуются.

Prefernce:

По крайней мере один ГБ данных.

Производственный журнал данных веб-сервера.

Немногие из них, которые я нашел до сих пор:

Свалка википедии

http://wiki.freebase.com/wiki/Data_dumps

http://aws.amazon.com/publicdatasets/

Также можем ли мы запустить собственный сканер для сбора данных с сайтов, например Википедия? Любые указатели о том, как это сделать, также приветствуются.

Ответы на вопрос(4)

Ваш ответ на вопрос