Corellialla on uusi osoite! Löydät meidät syyskuun alusta lähtien osoitteesta Kalevankatu 9, 00100 Helsinki, Hotelli Tornin kanssa samassa korttelissa. 

Tiedustelut myynti@corellia.fi tai 040 7070 202

Saavutettavan PDF:n tagit

Tässä artikkelissa esitellään saavutettavissa PDF-dokumenteissa käytettävien tagien koko joukko. Niitä on kaikkiaan 37 kappaletta PDF 1.7 versiossa. Useimmat tuntevat niistä vain muutaman. Saavutettavuuteen ensikertaa perehdyttäessä vastaan tulee melko pian otsikko-tagit H1-H6. Ja siihen se tietämys sitten jääkin, joten nyt on aika tutustua niihin loppuihin kolmeenkymmeneen.

Vaikka tarkoitukseni on sukellella aiheen syvässä päädyssä, niin käydään tässä läpi muutama perusasia, koska monelle dokumenttien parissa työskentelevällä tämä koodien maailma voi olla vieras tai uusi asia.

Mitä tagit ovat

Tagit ovat yksi saavutettavien dokumenttien peruselementeistä ja tekniseltä kannalta katsottuna voidaan pudottaa tuo sana ”yksi” kokonaan pois – ne ovat saavutettavan dokumentin peruselementtejä. Muita näkökantoja ovat sitten visuaalinen- ja sisällöllinen saavutettavuus, mutta tällä kertaa keskitytään tekniselle puolelle, eli konepellin alle.

Saavutettavissa dokumenteissa tagit ovat ennen kaikkea ruudunlukijoita varten.  Ruudunlukijat ovat apuvälineitä tai ohjelmia, jotka muuttavat laitteen ruudulla esitetyn sisällön luetuksi ääneksi tai pistekirjoitukseksi. Tageilla on merkitty ruudunlukijalle luettavaksi tarkoitettu sisältö. Tagit on listattu loogisesti luettavaan järjestykseen ja niiden avulla sisällölle voidaan luoda semanttinen ja hierarkinen järjestys.

Tagit eivät ole vain PDF:n oma juttu, vaan niitä käytetään yleisesti ohjelmoinnin parissa samaan tarkoitukseen esimerkiksi HTML-verkkosivuilla, kuin dokumenteissakin, jotka nekin ovat koodattuja tiedostoja.

On niillä suomenkielinenkin nimi, eli nimiöt, mutta käytän mielelläni sanaa ”tag”, koska se on melko vakiintunut. Acrobatin suomenkielisessä versiossa niitä kutsutaan ihan vain koodeiksi ja Microsoftin ohjelmissa puhutaan rakenteen tunnisteista.

Käytän artikkelissa tageista niiden varsinaisia koodi-nimiä. PDF-tiedoston koodissa käytetty kieli on englanti. Suomenkielisen Acrobat Pro -ohjelman valikoissa tageilla on myös suomenkieliset nimet, mutta itse koodiin ne tulevat englanninkielen mukaisesti. Esimerkiksi tagi ”Dokumentti” kirjotetaan koodiin ”Document” jne. Yksinkertainen ja varsin ymmärrettävä asia, mutta sanottiin se nyt ääneen hämmennysten välttämiseksi. Itse käytän Acrobat Pro ohjelmaa osittain tästä syystä englanninkielisenä, koska suomenkielissä ohjelmassa tagien listaukset ovat epäloogisesti esitetty ja eivät nimensä puolesta yhdisty varsinaiseen rakenteeseen. Esittämässäni taulukossa näkyy nimet molemmilla kielillä.

Tagit voidaan jakaa ryhmiin

Seuraavaksi esittelen PDF-tiedoston tagit ja ryhmittelen ne käyttörakenteen perusteella neljään eri ryhmään tai tasoon. Tageja voi ryhmitella muillakin perusteilla, mutta tässä olen ryhmitellyt ne rakenteellisten tasojen mukaan.

  • A = säiliö (Container), Ryhmittelytaso
  • B = Ryhmittelyn ala-rakenne-tagi
  • C = sisältö (Content), Varsinainen sisältö
  • D = Sisällytetty (Inline), Sisällön ali-tagi

Ryhmittelytasot

Ryhmittelytason tagit ovat nimensä mukaan tarkoitettu ryhmittelemään varsinaisia sisältöjen muodostamia kokonaisuuksia. Näitä ovat muun muassa <Art> -artikkeli tai <Div> -osio. Ryhmittelyt voidaan jakaa itsenäisesti toimiviin ylätason ryhmiin (A) ja sellaisiin alaryhmittelyihin (B), joiden täytyy sijaita aina ylemmän (A) ryhmittelytason tai toisinaan (C) sisältö-elementin alaisuudessa.

Sisältö

Varsinainen sisältö (Content) sijoitetaan näiden tagien sisään. Tyypillisiä sisältö-tageja ovat <P> Tekstikappale ja <H1-6> Otsikkotasot, sekä <Figure> kuvatagi. Sisältö-tagi (C) voi sisältää lisäksi niihin sijoitettuja Inline-tageja, kuten <Link> Hyperlinkki tai <Span> alue-tagi.

Seuraavassa taulukossa on luetteloitu PDF-tiedoston tagit.

 

<Tagi> Nimi (Eng) Nimi (Suom) Tyyppi Kuvaus
<Art> Article Artikkeli A Artikkelielementti. Itsenäinen yhden kokonaisuuden muodostava teksti.
<Annot> Annotation Muistiinpano D Tekstiin kohdistuva kommentti tai muistiinpano.
<BibEntry> Bibliography Entry Lähdeluettelon kohde D Lähdeluettelokohde-elementti. Joidenkin lainattujen tietojen lähteen kuvaus.
<BlockQuote> Block Quote Lohkoteksti C yksi tai useampi tekstikappale, joka esitetään lainattuna muusta lähteestä.
<Caption> Caption Kuvaotsikko C Kuvateksti, joka voidaan kohdistaa kuvan lisäksi myös taulukoihin.
<Code> Code Koodi D Koodimerkintäelementti. Dokumenttiin upotettu tietokoneohjelmateksti.
<Div> Division Yksikkö A Yksikköelementti. Yleinen lohkotason elementti tai lohkotason elementtien ryhmä.
<Document> Document Dokumentti A Dokumentin elementti. Dokumentin koodimerkintäpuun juurielementti.
<Figure> Figure Kuvio C Kuvamerkintäelementti. Kuva tai tekstiin liittyvä graafinen esitys.
<Form> Form Lomake D Lomakemerkintäelementti. PDF-lomakkeen huomautus, joka voidaan täyttää tai on täytetty.
<Formula> Formula Kaava D Kaavamerkintäelementti. Matemaattinen kaava.
<H> Heading Otsikko C Epämääräinen otsikko. Ei yleisesti suositella käytettäväksi.
<H1> Heading Level 1 Otsikko 1 C Otsikko-hierarkian ensimmäinen taso
<H2> Heading Level 2 Otsikko 2 C Otsikko-hierarkian toinen taso
<H3> Heading Level 3 Otsikko 3 C Otsikko-hierarkian kolmas taso
<H4> Heading Level 4 Otsikko 4 C Otsikko-hierarkian neljäs taso
<H5> Heading Level 5 Otsikko 5 C Otsikko-hierarkian viides taso
<H6> Heading Level 6 Otsikko 6 C Otsikko-hierarkian kuudes taso
<Index> Index Hakemisto C Hakemistoelementti
<Lbl> Label Selite B Merkitsee ja erottaa luettelopallukan, -viivan tai numeron varsinaisesta luettelosisällöstä.
<Link> Link Linkki D Linkkimerkintäelementti. Dokumenttiin upotettu hyperlinkki. Kohde voi olla samassa dokumentissa, toisessa dokumentissa tai Web-sivustossa.
<L> List Luettelo C Luettelon ylätaso, joka sisältää sarjan LI-tageja.
<LI> List Item Luettelon kohde B Yksittäinen luetteloitu kohde.
<LBody> List Item Body Luettelon kohteen leipäteksti B Luetteloidun kohteen varsinainen sisältö
<Note> Note Huomautus D Huomautusmerkintäelementti. Selittävä teksti tai huomautus, kuten ala- tai loppuviite, joka viittaa tekstin päärunkoon.
<P> Paragraph Kappale C Tekstikappale
<Part> Part Osa A Osaelementti Dokumentin suuri osa: sisällön pienempiä osia, kuten yksikkö-, artikkeli- tai osioelementtejä on voitu ryhmittää yhteen.
<Quote> Quote Lainaus D Lainausmerkintäelementti. Osa tekstiä, jolla on eri tekijä kuin ympäröivällä tekstillä. Tämä elementti eroaa lohkotekstistä, joka on vähintään yksi kokonainen kappale.
<Reference> Reference Viite D Viittausmerkintäelementti. Viittaus dokumentin muusta osasta löytyvään tekstiin tai tietoihin.
<Sect> Section Osio A Osioelementti. Yleinen säilöelementtityyppi, verrattavissa Division-tyyppiin (DIV Class=”Sect”) HTML-kielessä. Tämä on yleensä osaelementin tai artikkelielementin komponentti.
<Span> Span Alue D Ulottumamerkintäelementti. Sisäinen tekstiosa, jota käytetään rajoittamaan tyyliominaisuusjoukkoon kuuluvaa tekstiä.
<Table> Table Taulukko B Taulukkoelementti. Kaksiulotteinen tietojen tai tekstisolujen yhdistelmä sisältää taulukon rivielementit alielementteinä. Sen ensimmäisenä tai viimeisenä alielementtinä voi olla kuvatekstielementti.
<TD> Table Data Cell Taulukon datasolu C Taulukon yksittäisen solun tietosisältö
<TH> Table Header Cell Taulukon otsikkosolu C Taulukon sarake- tai riviotsikko
<TOC> Table Of Contents Sisällysluettelo A Sisällysluettelon ryhmätaso. Varsinaiset kohteet ovat TOCI-tagissa.
<TOCI> Table Of Contents Item Sisällysluettelon kohde C Sisällysluettelon yksi luetteloitu osa.
<TR> Table Row Taulukkorivi C Määrittää yhden taulukkorivin, joka sisältää yhden tai useampia taulukon data- tai otsikkosoluja