Open Office og Python
Utpakking
Det første vi ønsker å få på plass er selve utpakkingen. Et Python script som gjør dette kan se slik ut:
Inspeksjon
Når fila er vel utpakket og alle delene er tilgjengelige er det selvsagt avhengig av den oppgaven vi har hva vi skal gjøre med innholdet. Her er et enkelt eksempel på et program som inspiserer innholdet, altså XML-strukturen.
Rensing
Hvis vi inspiserer en utpakket content.xml fil vil vi se at den inneholder en masse informasjon som er nødvendig for at Open Office skal kunne gjenskape fila med all nødvendig layout og alle stiler vi har definert. Det ser også ut til av det er lagt ut informasjon som skal brukes når Open Office skal lagre/eksportere fila i et annet format enn odt. Hvis vi ikke er interessert i dette kan vi prøve å rense fila slik at vi bare sitter igjen med selve strukturen og referanser til objekter som bilder og formler. Det er mange måter å gjøre dette på. En måte er å bruke et xslt-stilsett og transformere content.xml til en forenklet versjon. Et slikt stilsett som er brukt for effektiv analyse kan se slik ut, modifisert fra Silje Arendt Olsen[1] :