Frans Havekes opent het deel over documentbehandeling met een bijdrage over de uitdagingen die de wetenschappelijke uitgeverij Brill aangaat bij het digitaal publiceren van boeken en tijdschriften. Per jaar brengen zij 600 boeken en 150 tijdschriften met een totaal van 550 nummers uit. De uitgeverij bestaat al 330 jaar en in deze presentatie zet Havekes uiteen waarom ePub voor Brill nog niet de oplossing is.
Eerst legt hij uit hoe het proces van publiceren werkt. Het is een cyclisch proces waarbij de tekst van de auteur naar Brill, dan naar de typesetter en weer terug naar de auteur gaat. Er worden verschillende proeven gedaan voordat het manuscript daadwerkelijk gepubliceerd wordt. De typesetter levert ook een web-ready document, zodat Brill de tekst gemakkelijk digitaal kan publiceren. Dit doen zij via hun nieuwe platform Brill Online, waar niet alleen de boeken vanaf 2007 en alle tijdschriften worden gepubliceerd, maar op het moment zijn er ook zo’n 25 naslagwerken te vinden. In totaal heeft Brill zo’n zeven miljoen pagina’s ‘uit de band’ gehaald en online gepubliceerd.
Omdat Brill een wetenschappelijke uitgeverij is en vooral op de gebieden van internationaal recht, humanistiek en religie veel publiceert, hebben ze te maken met vreemde karakters. Dit betekent dat de boeken en tijdschriften vaak in PDF-formaat worden gepubliceerd, terwijl de naslagwerken juist in XML beschikbaar zijn. Twee voorbeelden die Havekes geeft zijn een Arabisch manuscript, waarvan de pagina’s gescand worden en als plaatjes beschikbaar zijn, en een tijdschrift over bioscopen in Mexico, waarvan de tekst wel doorzoekbaar is en de plaatjes ook overgenomen zijn.
In de dagelijkse praktijk zijn er dus problemen die de uitgeverij tegenkomt, voornamelijk op het gebied van vreemde karakters. Brill heeft een eigen lettertype ontwikkeld met zo’n 6000 karakters in Latijn, Grieks en Cyrillisch schrift, zowel normaal, dikgedrukt, cursief en dikgedrukt cursief. Het is heel belangrijk dat de lettertypes precies juist worden weergegeven, zodat tekens niet door elkaar lopen en accenten precies recht boven of onder de letter staan.
Een ander probleem dat Havekes noemt is dat van verwijzingen: hoe citeer je naar een ePub-publicatie? In een PDF-bestand zijn gewoon paginanummers aanwezig, maar in ePub is er geen sprake meer van pagina’s.
Een zeer belangrijk punt is tevens de vindbaarheid van een boek. Het moet immers vindbaar zijn om verkocht te kunnen worden. Bibliotheken willen bepaalde informatie over een publicatie om deze juist te kunnen categoriseren, maar andere platforms willen wellicht weer andere informatie hebben en ook moeten de links in teksten nog steeds werken. De juiste metadata is dus van groot belang.
Ook het gebruik van meerdere ePub-platformen die onderling verschillen, levert problemen op. Niet alle apparaten en hun lettertypes ondersteunen de karakters die Brill wil weergeven. Ook met de lay-out zijn problemen. Het voorbeeld dat Havekes geeft is dat van een gedicht waarin interpunctie vervangen is door meerdere spaties. In XML, het formaat waarin ePub-publicaties geschreven worden, worden deze extra spaties onzichtbaar. Dan is er nog de leesrichting: niet overal ter wereld wordt van links naar rechts gelezen. Bij Brill hebben ze al gezien dat de zin soms gespiegeld wordt, of dat de woorden wel in de juiste volgorde staan, maar dat de karakters in de verkeerde volgorde worden weergegeven. Zelfs met tabellen en figuren zijn er nog problemen, bijvoorbeeld met de iPad, die zowel met het scherm horizontaal als met het scherm verticaal gebruikt kan worden. De tabellen verspringen dan op een manier waardoor de informatie niet meer juist weergegeven wordt.
Brill maakt wel gebruik van een werkwijze die volledig op XML gebaseerd is. De auteur, editor en reviewer of copyeditor werken allemaal in hetzelfde XML-bestand, zodat dit bestand gebruikt kan worden voor online publicaties. Het kan ook makkelijk omgezet worden in PDF voor print en web-ready teksten, en dus ook in ePub. Voorlopig houdt Brill het echter bij PDF, omdat ze bepaalde eisen hebben aan het ePub-formaat: het lettertype moet behouden blijven, en het moet mogelijk zijn om aan te geven in welke taal iets geschreven is, zodat vreemde karakters ook zichtbaar blijven.