Puoi utilizzare dati di Wikipedia . Il dump di dati XML per Wikipedia in inglese che include le revisioni correnti è di circa 31 GB, quindi I ' D dire che sarebbe un buon inizio per la tua ricerca. Il dump dei dati è piuttosto grande, quindi dovresti prendere in considerazione l'estrazione dei testi da XML con un parser SAX. WikiXMLJ è una comoda API Java ottimizzata per Wikipedia.
E poi, naturalmente, ci sono sempre i dump di dati di Stack Exchange . L' ultimo include tutti i siti e gli amp di Stack Exchange pubblici non beta ; corrispondenti siti Meta fino a settembre 2011. Ma, naturalmente, i messaggi di Stack Exchange sono concentrati sullo scopo di ciascun sito, quindi probabilmente non sono generalizzati come si vorrebbe. I post di Meta sono un po 'più generali, quindi potresti considerare quelli in aggiunta a Wikipedia.
Non penso che troverai di meglio, specialmente in testo normale. Diversi set di dati aperti sono disponibili attraverso l'hub di dati , ma penso che il dump di dati di Wikipedia in inglese sia molto vicino a quello che stai cercando.