Markup
Markup av tekst er ikke noe nytt fenomen. Det er lett å tenke seg at behovet for å sette merker i en standardisert form i en tekst for å angi hvordan den skulle settes har vært nyttig og nødvendig i trykkeribransjen i lang tid. Elektronisk behandling av dokumenter gjør det selvsagt mulig å sette slike merker i teksten på en slik måte at framstillingsteknologien, skjermdriver eller printerdriver, kan tolke merkene. Begrepet WYSIWYG (What You See Is What You Get) som ble introdusert på 80-tallet i forbindelse med introduksjon av rastergrafiske skjermer er en god illustrasjon på dette. Det WYSIWYG egentlig betyr er at det du lager på skjermen er det samme som det du får ut på skriveren. Som bruker av tekstbehandlingsprogrammer, som f.eks. MSWorld, blir du tilbudt funksjonalitet som i tillegg til å behandle selve teksten, gjør det mulig å bestemme nøyaktig hvordan teksten skal se ut. For at dette skal være mulig må det legges igjen (skjult) informasjon i teksten som skriveren og skjermdriveren kan forstå og tolke. Slik informasjon om dataene kan vi kalle metainformasjon. Det har blitt introdusert en rekke formater, både proprietære og åpne, for å realisere dette.
Hovedfokus i WYSIWYG-strategien er layout, altså hvordan dokumentet skal se ut. Digital behandling av strukturerte data har historisk hatt fokus mot databaser, regnearkformater eller CSV (kommasepararerte) filer. Framstilling av strukturerte data har i stor grad vært behandlet av diverse rapportgeneratorer eller spesialprogrammer i de enkelte tilfellene. Nå er ikke verden fullt så enkel: Microsoft har lagt ned en god del arbeid i å utvikle proprietære teknologier for å integrere verktøyene i MSOffice-familien på en slik måte at data kan sirkulere mellom ulike verktøy i familien.
Mangelen på ryddighet og forståelse av de to perspektivene på et dokument, layout og struktur, er et problem som stikker dypt, både systemteknisk og mentalt. De fleste brukere av tekstbehandlere har ikke dette skillet klart for seg og bruker strukturelementer og formatspesifikasjoner om hverandre for å oppnå visuelle effekter. Det samme skjer ved skriving av HTML.
XML-teknologien er interessant fordi:
- det gjør det mulig og naturlig å skille klart mellom struktur og layout
- det gjør det mulig å bearbeide begge aspektene ved et dokument hver for seg, og samtidig
- den gjør det teknisk enkelt å definere felles struktur for dokumenter innen en organisasjon eller et fagområde.
- det finnes en rekke produkter og programbiblioteker som gjør behandling av XML-dokumenter sikkert og enkelt.
- den er i motsetning til de fleste av de andre markup-språkene befriende enkel. Det er så enkelt at det er vanskelig å korrumpere selve ideen med proprietære varianter
- den er anvendbar både til tradisjonell dokumentbehandling og til veldefinerte mellomformater i systemløsninger og til konfigurasjonsbeskrivelser.
- den er et alternativ til enkle databaseløsninger.
- den passer som hånd i hanske som mellomformat mot databaseløsninger.
Når det gjelder HTML i forhold til XML, så er dette et litt komplisert bilde. Vi har hatt en periode på ca 10 år der utviklingen har gått entydig i retning av velformet HTML, XHTML, og et klarere og klarere skille mellom struktur og utseende, CSS (Cascading Style Sheets). Introduksjone av HTML5 er på mange måter et brudd med denne utviklingen. HTML5 aksepterer, og legger opp til, ikke-velformet markup. Det ser imidlertid ut til at det ikke vil skape problemer å fortsette tradisjonen med velformet markup, i form av velformet HTML5, XHTML5. Mer om dette i modulen HTML
Andre markup-språk
Det er lett å se at det generelle behovet for å standardisere dokumenter slik at de kan utveksles mellom applikasjoner har ført til en rekke mer eller mindre utbredte standardformater opp gjennom databehandlingens historie. Det finnes en oversikt over markup-språk på Wikipedia [1] De som er nevnt nedenfor har nesten utelukkende blitt utformet med tanke på å beskrive layout.
RTF
Rich Text Format er et format som ble introdusert av Microsoft. Se f.eks.: [2] for en beskrivelse. Du kan se hvordan det ser ut ved å lagre en MS Word fil som rtf og åpne den i Ultraedit eller Notepad eller en lignende teksteditor.
LaTeX
ble opprinnelig introdusert som TeX av Donald Knuth fordi han trengte et verktøy for å kontrollere teksten i en bok han skrev. LaTeX har hatt og har fortsatt utbredelse og tilhengere i akademiske miljøer. Mer om både LaTeX og Knuth på sidene til TeX Users Group: [3]
troff
Utdrag fra innledningen fra Troff User's Manual by Jospeh F. Ossanna and Brian W. Kernighan, se [4]
"troff is a text-formatting program for driving the Graphic Systems phototypesetter on the UNIX and GCOS operating systems. This device is capable of producing high quality text.... troff allows the user full control over fonts, sizes, and character positions, as well as the usual features of a formatter: right-margin justification, automatic hyphenation, page titling and numbering, and so on. It also provides macros, arithmetic variables and operations, and conditional testing, for complicated formatting tasks."
Postscript
Postscript representerer en litt annen innfallsvinkel til formatering. Vi markerer ikke for Postscript i dokumentet, men det finnes oversettere som genererer Postscript basert på annen markup. Hele dokumentet omgjøres til et program som så kan transporteres og kjøres på den enheten som skal presentere det. Printere er typiske enheter som kan utføre postscriptkode. [5]