Contesto: trovare la società per svolgere il lavoro
Il caso d'uso di un'applicazione che voglio scrivere è che un utente descriverà un'attività che deve essere eseguita da una compagnia, per esempio,
I want to move 10 boxes (30x40x50cm) of books and clothes from London to Bristol next week. How much would that cost?
e l'applicazione troverà le società candidate che potrebbero eseguire l'operazione. In questo caso, sarebbe necessario categorizzare l'attività come per le aziende di rimozione / trasporto .
Problema: categorizzazione errata
Ho provato una serie di servizi online per la categorizzazione dei testi, ma i risultati sono scoraggianti. uClassify ha classificato il mio testo come "Casa", "Giochi" e "Arti"; Textimate.me --- come "Scienza e ambiente"; Textwise ha restituito "Business / Consumer_Goods", "Servizi / Abbigliamento" e "Arti / Design / Moda".
I possibili motivi per una classificazione errata:
-
La descrizione dell'attività
- è molto breve e non ci sono evidenti caratteristiche nel testo per differenziare ciò che è più importante per l'utente: scatole, vestiti o forse spostarli,
- classificatori formati su altri tipi di testi,
- classificatori addestrati rispetto a una diversa tassonomia.
Come affronteresti un simile problema?
Soluzione potenziale: raccolta del corpus specifico del dominio
Dato che il problema è piuttosto specifico per il mio dominio, penso all'utilizzo dell'algoritmo di apprendimento automatico supervisionato, che apprenderebbe rispetto al corpus già definito di tali compiti. Il corpus può essere raccolto da siti con attività già categorizzate dai clienti (variazione di e-bay). Potrei anche pre-elaborare il testo prima dell'apprendimento automatico: estrai solo i verbi ("spostamento") e i nomi che hanno origine dai verbi ("traduzione"), poiché indicano ciò che deve essere fatto.
Questo richiede un bel po 'di lavoro, quindi sono curioso di sapere se questa sia la direzione giusta.