In breve, l'HTML sarebbe basato su un altro linguaggio di marcatura non hyperlink chiamato SGML, spesso usato per documentazione e manuali e simili.
Da un articolo sulla storia dell'HTML:
Tim had mentioned that some of the early HTML documents were based on an old SGML language that CERN was already using:- We have included in HTML some tags from the SGML tagset used at and once supported at CERN [...] The HTML parser will ignore tags which it does not understand, and will ignore attributes which it does not understand of CERN-SGML tags.
[...] most of the early HTML tags were actually taken from the CERN SGMLGuid language, which itself was a variant of AAP (an early SGML language). For example, title, hn, p, ol and so on are all apparently taken from this language. The only radical change was the addition of the all important anchor () link, without which the WWW wouldn't have taken off.
Prendendo nota della parte che ho messo in evidenza, in pratica, hanno implementato un sottoinsieme dei tag disponibili nel sistema SGML a loro familiare, aggiungendo il nuovo ancoraggio < a > tag, e scegliendo di ignorare uno dei molti tag che non gli interessa o che desiderano supportare per il motivo wahtever (come i tag per gli elenchi di bibliografia, xmp per il tag "example", "box" per disegnare una casella attorno a un blocco di testo, ecc.). Quindi il modo più semplice per farlo è perdonare il markup che non è noto al parser e ignorare il markup sconosciuto nel miglior modo possibile, indipendentemente dal fatto che la causa sia il markup errato dall'utente o il modo più semplice per convertire i documenti esistenti in questo nuovo formato HTML consiste nell'aggiungere alcuni collegamenti ipertestuali ai documenti SGML esistenti e ignorare tutti i tag non supportati o implementati.