Вы можете использовать дампы данных Википедии . Дамп данных XML для английской Википедии , которая включает в себя текущие изменения , составляет лишь около 31 Гб, так что я бы сказал , что это будет хорошим началом для вашего исследования. Дамп данных довольно большой, поэтому вы должны рассмотреть возможность извлечения текстов из XML с помощью SAX-парсера. WikiXMLJ - удобный API Java, настроенный для Википедии.
И тогда, конечно, всегда есть дампы данных Stack Exchange . Последняя одна не включает в себя все государственные без бета - Stack Exchange , сайты & соответствующие сайты Мета вплоть до сентября 2011 года Но, естественно сообщения Стек Обмен сосредоточены на объеме каждого сайта, так что, вероятно , не так обобщена , как вы хотите. Мета-посты немного более общие, поэтому вы можете рассмотреть их в дополнение к Википедии.
Я не думаю, что вы найдете что-то лучше, особенно в текстовом формате. Несколько открытых наборов данных доступны через Data Hub , но я думаю, что дамп данных английской Википедии очень близок к тому, что вы ищете.