Sto provando a rilevare attacchi omografati e altri attacchi in cui un utente malintenzionato utilizza un nome di dominio di contraffazione che sembra visivamente simile a un nome di dominio fidato (ad esempio, bankofthevvest.com invece di bankofthewest.com).
Esiste un dizionario o un database di caratteri visivamente simili che è adatto per l'uso programmatico?
Ad esempio, se cerco "l", vorrei tornare a un elenco che indica che "l" è visivamente simile a "1" e "i" (almeno in alcuni tipi di carattere). Se guardo su "w", potrebbe dirmi che è visivamente simile a "vv" (in alcuni tipi di carattere). Se guardo "d", potrebbe dirmi che è visivamente simile a "cl" (in alcuni tipi di carattere). Almeno per ora, il mio obiettivo è la somiglianza visiva tra i caratteri ASCII. Va bene ignorare Unicode. (Tuttavia, è un bonus extra se c'è una lista che sa anche quali caratteri Unicode sono visivamente simili a ogni carattere ASCII.)
Se esiste già una cosa del genere, vorrei evitare di reinventare la ruota. Esiste già un elenco di questo tipo?
Ecco cosa ho trovato finora:
-
Ho trovato Esiste un dizionario di caratteri Unicode visibilmente simili per l'elaborazione dello spam? , ma il la domanda è incentrata su Unicode e le risposte non risolvono veramente questa domanda: propongono un meccanismo di rilevamento alternativo.
-
I due documenti di ricerca seguenti escogitano UC-SimList , un elenco di caratteri visivamente simili. Tuttavia, si concentra sui caratteri Unicode e non ha somiglianza tra lettere ASCII (ad esempio, l vs 1, vv vs w).
Anthony Y. Fu, Xiaotie Deng, Liu Wenyin, Greg Little. La metodologia e un'applicazione per la lotta contro gli attacchi Unicode . SOUPS 2005.
Anthony Y. Fu, Wan Zhang, Xiaotie Deng, Liu Wenyin. Protezione contro attacchi Unicode: generazione e applicazioni di UC-SimList . WWW 2006.