Ho un database contenente solo URL semplici. È semplice come sembra ora e l'URL può collegarsi a un sito Web oa un documento (ad esempio, qualsiasi cosa possa essere analizzabile in testo).
Ora ho un semplice codice che inserisce i record nel database. Il problema è che il sito web / documento potrebbe essere effettivamente lo stesso, solo:
- Ospitato da qualche altra parte
- Non disponibile così collegato da Google Cache
- Non disponibile così collegato da archive.org
- La pagina può essere ripubblicata da un'altra fonte
- ecc ...
Mi piacerebbe ottenere una sorta di impronta digitale di un sito web / documento e pensare a un modo per farlo.
Quello che ho pensato:
Posso contare sul titolo
perché anche se il contenuto è pubblicato da qualche altra parte o messo in cache su qualche server, probabilmente avrà lo stesso titolo. Va bene, perché il titolo è solitamente breve e non consuma molto spazio. Lato negativo: funziona solo sul sito web. Forse un nome file è appropriato per i documenti ma anche questi possono essere rinominati.
Posso fare affidamento sul conteggio delle parole chiave
Ma il problema è che inserisco semplicemente URL e nessuna parola chiave né voglio farlo. È un semplice motore di archiviazione URL.
Posso ottenere una sorta di checksum di tutto il contenuto
Ma questo metodo sarebbe un'ipotesi totale.
QUINDI LA MIA DOMANDA È: Come posso impronte digitali di un contenuto, quindi in seguito potrei identificare possibili duplicati?
Modifica
Non voglio impronte digitali solo il titolo. Voglio impronte digitali dell'intero contenuto. Il contenuto rimane lo stesso, ma può essere ospitato ovunque e la sua struttura (anche il titolo) può cambiare. Per i documenti, anche il nome del file può cambiare. Voglio il contenuto delle impronte digitali. Tutto il testo in modo da poter identificare in seguito possibili duplicati.