Moderni approcci per recuperare contenuti utili da una pagina Web?

3

Quali sono i modi moderni per determinare in modo efficace quale parte della pagina contiene testo utile, tabelle di dati, ecc. e quali no (ad es. annunci, navigazione, ecc.)?

Quali sono state le ultime ricerche / risultati / documenti in questo campo negli ultimi anni?

Grazie in anticipo!

    
posta izhak 25.06.2011 - 13:14
fonte

1 risposta

3

Web semantico

"a web of data that can be processed directly and indirectly by machines."

Semantic Web è un sistema che consente alle macchine di comprendere i dati umani.

Tim Berners-Lee espresse originariamente la visione del web semantico come segue:

"I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web – the content, links, and transactions between people and computers. A ‘Semantic Web’, which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The ‘intelligent agents’ people have touted for ages will finally materialize."

Per fare questo, Semantic Web si basa su linguaggi specificamente progettati per archiviare dati arbitrari, come RDF , < a href="http://en.wikipedia.org/wiki/Web_Ontology_Language"> OWL e XML.

Microformat

Un approccio basato sul web per il markup semantico per raccogliere i metadati dai documenti.

Questo approccio consente al software di elaborare automaticamente le informazioni destinate agli utenti finali (come informazioni di contatto, coordinate geografiche, eventi del calendario e simili).

As of 2010 microformats allow the encoding and extraction of events, contact information, social relationships and so on. More are being developed.

Potresti anche essere interessato

Pubblicità semantica

Modello di analisi del sito web

Apprendimento ontologico

    
risposta data 08.09.2011 - 12:01
fonte

Leggi altre domande sui tag