Бесплатные большие наборы данных для экспериментов с Hadoop
Знаете ли вы какие-нибудь большие наборы данных для экспериментов с Hadoop, которые бесплатны / дешевы? Любые связанные указатели / ссылки приветствуются.
Prefernce:
По крайней мере один ГБ данных.
Производственный журнал данных веб-сервера.
Немногие из них, которые я нашел до сих пор:
http://wiki.freebase.com/wiki/Data_dumps
http://aws.amazon.com/publicdatasets/
Также можем ли мы запустить собственный сканер для сбора данных с сайтов, например Википедия? Любые указатели о том, как это сделать, также приветствуются.