Tässä artikkelissa esitellään saavutettavissa PDF-dokumenteissa käytettävien tagien koko joukko. Niitä on kaikkiaan 37 kappaletta PDF 1.7 versiossa. Useimmat tuntevat niistä vain muutaman. Saavutettavuuteen ensikertaa perehdyttäessä vastaan tulee melko pian otsikko-tagit H1-H6. Ja siihen se tietämys sitten jääkin, joten nyt on aika tutustua niihin loppuihin kolmeenkymmeneen.
Vaikka tarkoitukseni on sukellella aiheen syvässä päädyssä, niin käydään tässä läpi muutama perusasia, koska monelle dokumenttien parissa työskentelevällä tämä koodien maailma voi olla vieras tai uusi asia.
Mitä tagit ovat
Tagit ovat yksi saavutettavien dokumenttien peruselementeistä ja tekniseltä kannalta katsottuna voidaan pudottaa tuo sana ”yksi” kokonaan pois – ne ovat saavutettavan dokumentin peruselementtejä. Muita näkökantoja ovat sitten visuaalinen- ja sisällöllinen saavutettavuus, mutta tällä kertaa keskitytään tekniselle puolelle, eli konepellin alle.
Saavutettavissa dokumenteissa tagit ovat ennen kaikkea ruudunlukijoita varten. Ruudunlukijat ovat apuvälineitä tai ohjelmia, jotka muuttavat laitteen ruudulla esitetyn sisällön luetuksi ääneksi tai pistekirjoitukseksi. Tageilla on merkitty ruudunlukijalle luettavaksi tarkoitettu sisältö. Tagit on listattu loogisesti luettavaan järjestykseen ja niiden avulla sisällölle voidaan luoda semanttinen ja hierarkinen järjestys.
Tagit eivät ole vain PDF:n oma juttu, vaan niitä käytetään yleisesti ohjelmoinnin parissa samaan tarkoitukseen esimerkiksi HTML-verkkosivuilla, kuin dokumenteissakin, jotka nekin ovat koodattuja tiedostoja.
On niillä suomenkielinenkin nimi, eli nimiöt, mutta käytän mielelläni sanaa ”tag”, koska se on melko vakiintunut. Acrobatin suomenkielisessä versiossa niitä kutsutaan ihan vain koodeiksi ja Microsoftin ohjelmissa puhutaan rakenteen tunnisteista.
Käytän artikkelissa tageista niiden varsinaisia koodi-nimiä. PDF-tiedoston koodissa käytetty kieli on englanti. Suomenkielisen Acrobat Pro -ohjelman valikoissa tageilla on myös suomenkieliset nimet, mutta itse koodiin ne tulevat englanninkielen mukaisesti. Esimerkiksi tagi ”Dokumentti” kirjotetaan koodiin ”Document” jne. Yksinkertainen ja varsin ymmärrettävä asia, mutta sanottiin se nyt ääneen hämmennysten välttämiseksi. Itse käytän Acrobat Pro ohjelmaa osittain tästä syystä englanninkielisenä, koska suomenkielissä ohjelmassa tagien listaukset ovat epäloogisesti esitetty ja eivät nimensä puolesta yhdisty varsinaiseen rakenteeseen. Esittämässäni taulukossa näkyy nimet molemmilla kielillä.
Tagit voidaan jakaa ryhmiin
Seuraavaksi esittelen PDF-tiedoston tagit ja ryhmittelen ne käyttörakenteen perusteella neljään eri ryhmään tai tasoon. Tageja voi ryhmitella muillakin perusteilla, mutta tässä olen ryhmitellyt ne rakenteellisten tasojen mukaan.
- A = säiliö (Container), Ryhmittelytaso
- B = Ryhmittelyn ala-rakenne-tagi
- C = sisältö (Content), Varsinainen sisältö
- D = Sisällytetty (Inline), Sisällön ali-tagi
Ryhmittelytasot
Ryhmittelytason tagit ovat nimensä mukaan tarkoitettu ryhmittelemään varsinaisia sisältöjen muodostamia kokonaisuuksia. Näitä ovat muun muassa <Art> -artikkeli tai <Div> -osio. Ryhmittelyt voidaan jakaa itsenäisesti toimiviin ylätason ryhmiin (A) ja sellaisiin alaryhmittelyihin (B), joiden täytyy sijaita aina ylemmän (A) ryhmittelytason tai toisinaan (C) sisältö-elementin alaisuudessa.
Sisältö
Varsinainen sisältö (Content) sijoitetaan näiden tagien sisään. Tyypillisiä sisältö-tageja ovat <P> Tekstikappale ja <H1-6> Otsikkotasot, sekä <Figure> kuvatagi. Sisältö-tagi (C) voi sisältää lisäksi niihin sijoitettuja Inline-tageja, kuten <Link> Hyperlinkki tai <Span> alue-tagi.
Seuraavassa taulukossa on luetteloitu PDF-tiedoston tagit.
<Tagi> | Nimi (Eng) | Nimi (Suom) | Tyyppi | Kuvaus |
<Art> | Article | Artikkeli | A | Artikkelielementti. Itsenäinen yhden kokonaisuuden muodostava teksti. |
<Annot> | Annotation | Muistiinpano | D | Tekstiin kohdistuva kommentti tai muistiinpano. |
<BibEntry> | Bibliography Entry | Lähdeluettelon kohde | D | Lähdeluettelokohde-elementti. Joidenkin lainattujen tietojen lähteen kuvaus. |
<BlockQuote> | Block Quote | Lohkoteksti | C | yksi tai useampi tekstikappale, joka esitetään lainattuna muusta lähteestä. |
<Caption> | Caption | Kuvaotsikko | C | Kuvateksti, joka voidaan kohdistaa kuvan lisäksi myös taulukoihin. |
<Code> | Code | Koodi | D | Koodimerkintäelementti. Dokumenttiin upotettu tietokoneohjelmateksti. |
<Div> | Division | Yksikkö | A | Yksikköelementti. Yleinen lohkotason elementti tai lohkotason elementtien ryhmä. |
<Document> | Document | Dokumentti | A | Dokumentin elementti. Dokumentin koodimerkintäpuun juurielementti. |
<Figure> | Figure | Kuvio | C | Kuvamerkintäelementti. Kuva tai tekstiin liittyvä graafinen esitys. |
<Form> | Form | Lomake | D | Lomakemerkintäelementti. PDF-lomakkeen huomautus, joka voidaan täyttää tai on täytetty. |
<Formula> | Formula | Kaava | D | Kaavamerkintäelementti. Matemaattinen kaava. |
<H> | Heading | Otsikko | C | Epämääräinen otsikko. Ei yleisesti suositella käytettäväksi. |
<H1> | Heading Level 1 | Otsikko 1 | C | Otsikko-hierarkian ensimmäinen taso |
<H2> | Heading Level 2 | Otsikko 2 | C | Otsikko-hierarkian toinen taso |
<H3> | Heading Level 3 | Otsikko 3 | C | Otsikko-hierarkian kolmas taso |
<H4> | Heading Level 4 | Otsikko 4 | C | Otsikko-hierarkian neljäs taso |
<H5> | Heading Level 5 | Otsikko 5 | C | Otsikko-hierarkian viides taso |
<H6> | Heading Level 6 | Otsikko 6 | C | Otsikko-hierarkian kuudes taso |
<Index> | Index | Hakemisto | C | Hakemistoelementti |
<Lbl> | Label | Selite | B | Merkitsee ja erottaa luettelopallukan, -viivan tai numeron varsinaisesta luettelosisällöstä. |
<Link> | Link | Linkki | D | Linkkimerkintäelementti. Dokumenttiin upotettu hyperlinkki. Kohde voi olla samassa dokumentissa, toisessa dokumentissa tai Web-sivustossa. |
<L> | List | Luettelo | C | Luettelon ylätaso, joka sisältää sarjan LI-tageja. |
<LI> | List Item | Luettelon kohde | B | Yksittäinen luetteloitu kohde. |
<LBody> | List Item Body | Luettelon kohteen leipäteksti | B | Luetteloidun kohteen varsinainen sisältö |
<Note> | Note | Huomautus | D | Huomautusmerkintäelementti. Selittävä teksti tai huomautus, kuten ala- tai loppuviite, joka viittaa tekstin päärunkoon. |
<P> | Paragraph | Kappale | C | Tekstikappale |
<Part> | Part | Osa | A | Osaelementti Dokumentin suuri osa: sisällön pienempiä osia, kuten yksikkö-, artikkeli- tai osioelementtejä on voitu ryhmittää yhteen. |
<Quote> | Quote | Lainaus | D | Lainausmerkintäelementti. Osa tekstiä, jolla on eri tekijä kuin ympäröivällä tekstillä. Tämä elementti eroaa lohkotekstistä, joka on vähintään yksi kokonainen kappale. |
<Reference> | Reference | Viite | D | Viittausmerkintäelementti. Viittaus dokumentin muusta osasta löytyvään tekstiin tai tietoihin. |
<Sect> | Section | Osio | A | Osioelementti. Yleinen säilöelementtityyppi, verrattavissa Division-tyyppiin (DIV Class=”Sect”) HTML-kielessä. Tämä on yleensä osaelementin tai artikkelielementin komponentti. |
<Span> | Span | Alue | D | Ulottumamerkintäelementti. Sisäinen tekstiosa, jota käytetään rajoittamaan tyyliominaisuusjoukkoon kuuluvaa tekstiä. |
<Table> | Table | Taulukko | B | Taulukkoelementti. Kaksiulotteinen tietojen tai tekstisolujen yhdistelmä sisältää taulukon rivielementit alielementteinä. Sen ensimmäisenä tai viimeisenä alielementtinä voi olla kuvatekstielementti. |
<TD> | Table Data Cell | Taulukon datasolu | C | Taulukon yksittäisen solun tietosisältö |
<TH> | Table Header Cell | Taulukon otsikkosolu | C | Taulukon sarake- tai riviotsikko |
<TOC> | Table Of Contents | Sisällysluettelo | A | Sisällysluettelon ryhmätaso. Varsinaiset kohteet ovat TOCI-tagissa. |
<TOCI> | Table Of Contents Item | Sisällysluettelon kohde | C | Sisällysluettelon yksi luetteloitu osa. |
<TR> | Table Row | Taulukkorivi | C | Määrittää yhden taulukkorivin, joka sisältää yhden tai useampia taulukon data- tai otsikkosoluja |