НЛП: Создание (небольших) корпусов или «Где взять много не слишком специализированных текстовых файлов на английском языке?»

У кого-нибудь есть предложение, где найти архивы или коллекции повседневного английского текста для использования в небольшом корпусе? Я использовал книги Gutenberg Project для рабочего прототипа и хотел бы включить более современный язык.недавний ответ здесь косвенно указывает на большойАрхив Usenet фильмов обзоры, что не пришло мне в голову, и это очень хорошо. Для этой конкретной программы технические архивы usenet или программные списки рассылки могут отклонить результаты и их будет сложно проанализировать, но любой вид общего текста блога, стенограммы чата или что-либо, что могло бы быть полезным для других, было бы очень полезно. Кроме того, очень ценится частично или загружаемый исследовательский корпус, который не слишком размечен, или какая-то эвристика для поиска подходящего подмножества статей в Википедии или любой другой идеи.

(Кстати, я являюсь хорошим гражданином без загрузки, использую намеренно медленный сценарий, который не требователен к серверам, на которых размещается такой материал, на случай, если вы заметите моральную опасность, указав мне на что-то огромное.)

ОБНОВИТЬ: Пользователь S0rin указывает, что википедия не запрашивает сканирование и предоставляетэтот инструмент экспорта вместо. У проекта Гутенберга есть определенная политикаВотВ нижней строке постарайтесь не сканировать, но если вам нужно: «Настройте своего робота на ожидание не менее 2 секунд между запросами».

ОБНОВЛЕНИЕ 2 Свалки Викпедии - путь, благодаря ответчикам, которые указали на них. Я закончил тем, что использовал английскую версию отсюда:http://download.wikimedia.org/enwiki/20090306/ и испанская свалка примерно вдвое меньше. Они - некоторая работа по очистке, но они того стоят, и они содержат много полезных данных в ссылках.

Ответы на вопрос(7)

Ваш ответ на вопрос