Generazione di elenchi di parole personalizzate per un dominio web specifico

1

Sto cercando uno strumento che generi un insieme di liste di parole basate sulle parole che trova sulle pagine di un particolare dominio web. Questa domanda ha una risposta che genera elenchi di parole permutati a partire da quelli esistenti. Altri strumenti come crunch in backtrack / kali hanno un certo numero di modi di generazione ma non tengono conto di un elenco di parole esistente.

Come posso generare password basate su parole nel dominio web?

    
posta Sebi 28.02.2016 - 10:26
fonte

2 risposte

2

Una soluzione Python

Puoi utilizzare Scrapy che farà la maggior parte del lavoro per te. Dovresti quindi solo utilizzare Counter() per ottenere le parole migliori (se stai cercando per i conteggi di frequenza).

Potresti anche utilizzare un approccio di livello più basso con Beautiful Soup per ottenere le prime 5 parole:

# coding=utf-8
import requests
import collections
from bs4 import BeautifulSoup

thesite = requests.get("http://www.lemonde.fr").text

soup = BeautifulSoup(thesite, 'html.parser')
thewords = soup.get_text().split()

print(collections.Counter(thewords).most_common(5))

Poiché l'output è

[('de', 223), ('la', 154), (':', 123), ('{', 115), ('à', 84)]

potresti dare un'occhiata a una lunghezza minima di una "parola" (forse 3?)

UPDATE : il codice per un elenco ordinato di parole più comuni con 3 o più lettere

# coding=utf-8
import requests
import collections
from bs4 import BeautifulSoup
import operator

thesite = requests.get("http://www.lemonde.fr").text

soup = BeautifulSoup(thesite, 'html.parser')
thewords = soup.get_text().split()

# keep only words over 3 chars

thewords = {w: f for  w, f in collections.Counter(thewords).items() if len(w) > 3}
topwords = sorted(thewords.items(), key=operator.itemgetter(1), reverse=True)

print(topwords)
    
risposta data 28.02.2016 - 10:47
fonte
2

Che ne dici di utilizzare uno strumento chiamato CeWL - Generatore di elenchi di parole personalizzate ?

CeWL is a ruby app which spiders a given url to a specified depth, optionally following external links, and returns a list of words which can then be used for password crackers such as John the Ripper.

    
risposta data 29.02.2016 - 10:01
fonte

Leggi altre domande sui tag