Attività classificate in modo errato con classificatori di testo online

3

Contesto: trovare la società per svolgere il lavoro

Il caso d'uso di un'applicazione che voglio scrivere è che un utente descriverà un'attività che deve essere eseguita da una compagnia, per esempio,

I want to move 10 boxes (30x40x50cm) of books and clothes from London to Bristol next week. How much would that cost?

e l'applicazione troverà le società candidate che potrebbero eseguire l'operazione. In questo caso, sarebbe necessario categorizzare l'attività come per le aziende di rimozione / trasporto .

Problema: categorizzazione errata

Ho provato una serie di servizi online per la categorizzazione dei testi, ma i risultati sono scoraggianti. uClassify ha classificato il mio testo come "Casa", "Giochi" e "Arti"; Textimate.me --- come "Scienza e ambiente"; Textwise ha restituito "Business / Consumer_Goods", "Servizi / Abbigliamento" e "Arti / Design / Moda".

I possibili motivi per una classificazione errata:

    La descrizione dell'attività
  • è molto breve e non ci sono evidenti caratteristiche nel testo per differenziare ciò che è più importante per l'utente: scatole, vestiti o forse spostarli,
  • classificatori formati su altri tipi di testi,
  • classificatori addestrati rispetto a una diversa tassonomia.

Come affronteresti un simile problema?

Soluzione potenziale: raccolta del corpus specifico del dominio

Dato che il problema è piuttosto specifico per il mio dominio, penso all'utilizzo dell'algoritmo di apprendimento automatico supervisionato, che apprenderebbe rispetto al corpus già definito di tali compiti. Il corpus può essere raccolto da siti con attività già categorizzate dai clienti (variazione di e-bay). Potrei anche pre-elaborare il testo prima dell'apprendimento automatico: estrai solo i verbi ("spostamento") e i nomi che hanno origine dai verbi ("traduzione"), poiché indicano ciò che deve essere fatto.

Questo richiede un bel po 'di lavoro, quindi sono curioso di sapere se questa sia la direzione giusta.

    
posta dzieciou 08.07.2016 - 01:33
fonte

1 risposta

2

Penso che il tuo problema implichi un mini- schlep :

There are great startup ideas lying around unexploited right under our noses. One reason we don't see them is a phenomenon I call schlep blindness. Schlep was originally a Yiddish word but has passed into general use in the US. It means a tedious, unpleasant task.

No one likes schleps, but hackers especially dislike them. Most hackers who start startups wish they could do it by just writing some clever software, putting it on a server somewhere, and watching the money roll in—without ever having to talk to users, or negotiate with other companies, or deal with other people's broken code. Maybe that's possible, but I haven't seen it.

Hai identificato un elemento nel tuo piano aziendale che sarà difficile da risolvere con il solo software. Questo è un grande segno!

One of the many things we do at Y Combinator is teach hackers about the inevitability of schleps. No, you can't start a startup by just writing code.

That scariness makes ambitious ideas doubly valuable. In addition to their intrinsic value, they're like undervalued stocks in the sense that there's less demand for them among founders. If you pick an ambitious idea, you'll have less competition, because everyone else will have been frightened off by the challenges involved.

Quindi ecco il mio consiglio:

  1. Scrive codice che fa un ragionevole lavoro di scansione dell'input dell'utente per le parole chiave. Quando implementa questo pezzo, tieni presente il principio di Pareto (o regola 80-20).
  2. Nel codice di corrispondenza delle parole chiave, consenti un caso predefinito che non corrisponde a nessuna parola chiave. Sullo schermo, chiedi scusa all'utente che non è stato possibile trovare una corrispondenza, ma incoraggiali a tornare presto perché stai migliorando costantemente l'applicazione.
  3. Nel codice di corrispondenza delle parole chiave, registra le parole chiave in entrata e la corrispondenza trovata in un archivio dati.
  4. Controlla questo archivio dati frequentemente . Forse tre volte al giorno nei giorni lavorativi, una volta al giorno nei giorni non lavorativi.
  5. I dati dovrebbero darti indicazioni su come migliorare il tuo algoritmo, quindi persegui una strategia di miglioramento continuo.
  6. Nel tempo libero, scopri ulteriori informazioni su linguistica computazionale e su come i suoi concetti possono aiutarti a risolvere meglio i tuoi problemi aziendali.
risposta data 06.01.2013 - 23:58
fonte