"Fuzzy" parsing in diverse lingue

1

Ho un sacco di testo in chiaro come questo:

1 MILE, PACE, PURSE $1,100.
FILLIES & MARES N/W $541 L5 STARTS AE N/A $301 L5 & N/A $60 PS
IN 2015-16 DRAW INSIDE
                                                                                         Last
Horse                       HV PP    1/4     1/2     3/4     Stretch  Finish     Time    1/4  Driver           Odds   Trainer
7   Im A Debutant               7    7/9H    7/5T    5/2T    5/2H     1/3        2:03    31   C Macpherson     7.45   R Gass
3   M D Caseys Charm            3    2@/1H   3/1T    3/1H    3/1Q     2/3        2:03.3  32   Ma Campbell      3.20   S Ford
5   Lucksgottachange            5    1/1H    1/T     1/1Q    1/1      3/3        2:03.3  32.1 J Hughes         1.55*  J Hughes
2   Gascoigne Dickie            2    4/4T    5/3Q    4@@/1T  2/1      4/3H       2:03.3  31.4 K Sorrie        30.10   K Sorrie
8   Avid Yankee                 8    8/12    8/8     8/5     8/4Q     5/5        2:04    31.3 K Murphy         5.25   A Ramsay
1   Honor Roll                  1    3/3     2@/T    2@/1Q   4/2Q     6/6        2:04.1  32.3 B Andrew         9.90   B Andrew
4   Julep Hanover               4    5/6Q    6@/4H   7@@/3T  6/3T     7/6        2:04.1  32   W Myers         19.05   W Myers
6   Putnams Snap                6    6/7T    4@/3    6@/3H   7/4      8/10       2:05    33   M Mcguigan       2.75   G Dunn
Time: 29.2, 1:00.3, 1:31.2, 2:03 (Temperature: -2, Condition: GD, Variant: 1)

tratto da link

Ma nel mio caso è scritto in modo umano e potrebbe contenere spazi, punti, ecc.

E ho bisogno di analizzarlo in una struttura dati. Quale sarebbe l'approccio ai diversi linguaggi di programmazione? Buone librerie?

Sono principalmente un programmatore Python, ma cerco di imparare nuove lingue.

Inoltre, mi piacerebbe davvero vedere come le lingue con caratteri forti si occupano di questo.

    
posta dmzkrsk 08.02.2016 - 03:06
fonte

2 risposte

1

Un modo per approcciarlo: avere un dizionario memorizzato come un trie e cercare le cose in esso, analogo a un correttore ortografico . Gli spazi mancanti tra le parole possono essere trattati come solo un altro errore di ortografia.

    
risposta data 08.02.2016 - 03:29
fonte
1

Sebbene raramente offra questo consiglio sui forum pubblici, un'espressione regolare dovrebbe essere sufficiente. La chiave è che sembrano esserci gruppi di modelli molto distinti nei dati. Questi raggruppamenti significano che non devi fare affidamento solo sugli spazi bianchi.

Ad esempio, la tabella è un numero, alcuni spazi bianchi, un gruppo di lettere e numeri, alcuni spazi bianchi, un numero, cinque colonne composte da due coppie di caratteri con un /, seguito da un timestamp. È una cosa facile per le espressioni regolari.

    
risposta data 08.04.2016 - 19:21
fonte

Leggi altre domande sui tag