Dove posso trovare una serie diversa di testo di esempio? [chiuso]

14

Sto cercando di raccogliere statistiche sulle sequenze di caratteri o parole usate nella lingua inglese da utilizzare in un progetto software.

Dove posso ottenere una grande quantità (più GB sarebbe bello) di testo in chiaro inglese che copre un insieme eterogeneo di argomenti?

    
posta JSideris 01.02.2012 - 02:29
fonte

4 risposte

19

Puoi utilizzare dati di Wikipedia . Il dump di dati XML per Wikipedia in inglese che include le revisioni correnti è di circa 31 GB, quindi I ' D dire che sarebbe un buon inizio per la tua ricerca. Il dump dei dati è piuttosto grande, quindi dovresti prendere in considerazione l'estrazione dei testi da XML con un parser SAX. WikiXMLJ è una comoda API Java ottimizzata per Wikipedia.

E poi, naturalmente, ci sono sempre i dump di dati di Stack Exchange . L' ultimo include tutti i siti e gli amp di Stack Exchange pubblici non beta ; corrispondenti siti Meta fino a settembre 2011. Ma, naturalmente, i messaggi di Stack Exchange sono concentrati sullo scopo di ciascun sito, quindi probabilmente non sono generalizzati come si vorrebbe. I post di Meta sono un po 'più generali, quindi potresti considerare quelli in aggiunta a Wikipedia.

Non penso che troverai di meglio, specialmente in testo normale. Diversi set di dati aperti sono disponibili attraverso l'hub di dati , ma penso che il dump di dati di Wikipedia in inglese sia molto vicino a quello che stai cercando.

    
risposta data 01.02.2012 - 02:36
fonte
5

Google ha una raccolta di set di dati che usano per determinare le probabilità di n-grammo. Esaminare i loro dataset di bigram (2 grammi) dovrebbe darti una buona immagine. Ci sono molti altri corpi là fuori per i quali queste analisi sono già state fatte.

    
risposta data 01.02.2012 - 02:42
fonte
4

Project Gutenberg ha un grande corpus di testi in inglese, già in forma di testo.

Project Gutenberg offers over 42,000 free ebooks: choose among free epub books, free kindle books, download them or read them online.

We carry high quality ebooks: All our ebooks were previously published by bona fide publishers. We digitized and diligently proofread them with the help of thousands of volunteers...

    
risposta data 01.02.2012 - 02:52
fonte
1

Per le statistiche, probabilmente stai guardando "Bigram Frequency in lingua inglese". Dai un'occhiata a: Wiki-Bigram Stats

come per trovare un testo di grandi dimensioni, nota che la frequenza sarebbe polarizzata al tipo di testo. Ad esempio, se si analizzano gli indirizzi si ottengono risultati diversi dall'analisi delle storie dei giornali. Se vuoi solo testare, puoi usare il file PDF di qualsiasi libro (meglio non essere matematico o programmazione o libro medico) e convertirlo in testo, quindi eseguire i test. Puoi anche convertire le pagine web dei giornali in testo e lavorare su quelle.

    
risposta data 01.02.2012 - 02:41
fonte

Leggi altre domande sui tag