Oggi ho avuto l'idea di scrivere un programma che confronta i premi tra diversi web-store. La domanda chiave che mi pongo è come trovare (con un'alta probabilità) lo stesso articolo su un altro web-store. Ad esempio:
Nel codice sono presenti tre diversi siti Web da cercare: A , B e C . Ogni articolo su ciascun sito web ha un immagine , titolo e una descrizione .
- Il programma accede a un articolo casuale sul sito web A .
- Ora il compito è andare sul web-store B e C e provare a trovare lo stesso articolo lì, usando l'immagine, titolo e descrizione dal sito web A .
Quello che sto chiedendo ora è che possibilità ho di identificare due articoli come lo stesso quando ho solo due testi diversi e un'immagine? Quello che ho pensato finora è:
- Ovviamente, confrontando le stringhe dal titolo e cercare le somiglianze.
- Estrarre parole chiave importanti e cercarle in modo esplicito (ad esempio nome del produttore, anno di creazione, ecc.)
- Analizzare le immagini
Forse qualcuno aveva già fatto esperienza con questo tipo di "abbinamento di modelli". Il risultato dovrebbe avere un'alta probabilità di correttezza. Ovviamente sono aperto a nuove idee per il confronto, che non sono nella mia lista.