Keinoäly! Mennyt vuosi on ollut aika lailla käänteentekevä monella tapaa liittyen tietotekniikkaan tietotyön tekemiseen. Keinoäly,…

Saavutettavan PDF:n tagit
Tässä artikkelissa esitellään saavutettavissa PDF-dokumenteissa käytettävien tagien koko joukko. Niitä on kaikkiaan 37 kappaletta PDF 1.7 versiossa. Useimmat tuntevat niistä vain muutaman. Saavutettavuuteen ensikertaa perehdyttäessä vastaan tulee melko pian otsikko-tagit H1-H6. Ja siihen se tietämys sitten jääkin, joten nyt on aika tutustua niihin loppuihin kolmeenkymmeneen.
Vaikka tarkoitukseni on sukellella aiheen syvässä päädyssä, niin käydään tässä läpi muutama perusasia, koska monelle dokumenttien parissa työskentelevällä tämä koodien maailma voi olla vieras tai uusi asia.
Mitä tagit ovat
Tagit ovat yksi saavutettavien dokumenttien peruselementeistä ja tekniseltä kannalta katsottuna voidaan pudottaa tuo sana ”yksi” kokonaan pois – ne ovat saavutettavan dokumentin peruselementtejä. Muita näkökantoja ovat sitten visuaalinen- ja sisällöllinen saavutettavuus, mutta tällä kertaa keskitytään tekniselle puolelle, eli konepellin alle.
Saavutettavissa dokumenteissa tagit ovat ennen kaikkea ruudunlukijoita varten. Ruudunlukijat ovat apuvälineitä tai ohjelmia, jotka muuttavat laitteen ruudulla esitetyn sisällön luetuksi ääneksi tai pistekirjoitukseksi. Tageilla on merkitty ruudunlukijalle luettavaksi tarkoitettu sisältö. Tagit on listattu loogisesti luettavaan järjestykseen ja niiden avulla sisällölle voidaan luoda semanttinen ja hierarkinen järjestys.
Tagit eivät ole vain PDF:n oma juttu, vaan niitä käytetään yleisesti ohjelmoinnin parissa samaan tarkoitukseen esimerkiksi HTML-verkkosivuilla, kuin dokumenteissakin, jotka nekin ovat koodattuja tiedostoja.
On niillä suomenkielinenkin nimi, eli nimiöt, mutta käytän mielelläni sanaa ”tag”, koska se on melko vakiintunut. Acrobatin suomenkielisessä versiossa niitä kutsutaan ihan vain koodeiksi ja Microsoftin ohjelmissa puhutaan rakenteen tunnisteista.
Käytän artikkelissa tageista niiden varsinaisia koodi-nimiä. PDF-tiedoston koodissa käytetty kieli on englanti. Suomenkielisen Acrobat Pro -ohjelman valikoissa tageilla on myös suomenkieliset nimet, mutta itse koodiin ne tulevat englanninkielen mukaisesti. Esimerkiksi tagi ”Dokumentti” kirjotetaan koodiin ”Document” jne. Yksinkertainen ja varsin ymmärrettävä asia, mutta sanottiin se nyt ääneen hämmennysten välttämiseksi. Itse käytän Acrobat Pro ohjelmaa osittain tästä syystä englanninkielisenä, koska suomenkielissä ohjelmassa tagien listaukset ovat epäloogisesti esitetty ja eivät nimensä puolesta yhdisty varsinaiseen rakenteeseen. Esittämässäni taulukossa näkyy nimet molemmilla kielillä.
Tagit voidaan jakaa ryhmiin
Seuraavaksi esittelen PDF-tiedoston tagit ja ryhmittelen ne käyttörakenteen perusteella neljään eri ryhmään tai tasoon. Tageja voi ryhmitella muillakin perusteilla, mutta tässä olen ryhmitellyt ne rakenteellisten tasojen mukaan.
- A = säiliö (Container), Ryhmittelytaso
- B = Ryhmittelyn ala-rakenne-tagi
- C = sisältö (Content), Varsinainen sisältö
- D = Sisällytetty (Inline), Sisällön ali-tagi
Ryhmittelytasot
Ryhmittelytason tagit ovat nimensä mukaan tarkoitettu ryhmittelemään varsinaisia sisältöjen muodostamia kokonaisuuksia. Näitä ovat muun muassa <Art> -artikkeli tai <Div> -osio. Ryhmittelyt voidaan jakaa itsenäisesti toimiviin ylätason ryhmiin (A) ja sellaisiin alaryhmittelyihin (B), joiden täytyy sijaita aina ylemmän (A) ryhmittelytason tai toisinaan (C) sisältö-elementin alaisuudessa.
Sisältö
Varsinainen sisältö (Content) sijoitetaan näiden tagien sisään. Tyypillisiä sisältö-tageja ovat <P> Tekstikappale ja <H1-6> Otsikkotasot, sekä <Figure> kuvatagi. Sisältö-tagi (C) voi sisältää lisäksi niihin sijoitettuja Inline-tageja, kuten <Link> Hyperlinkki tai <Span> alue-tagi.
Seuraavassa taulukossa on luetteloitu PDF-tiedoston tagit.
<Tagi> | Nimi (Eng) | Nimi (Suom) | Tyyppi | Kuvaus |
<Art> | Article | Artikkeli | A | Artikkelielementti. Itsenäinen yhden kokonaisuuden muodostava teksti. |
<Annot> | Annotation | Muistiinpano | D | Tekstiin kohdistuva kommentti tai muistiinpano. |
<BibEntry> | Bibliography Entry | Lähdeluettelon kohde | D | Lähdeluettelokohde-elementti. Joidenkin lainattujen tietojen lähteen kuvaus. |
<BlockQuote> | Block Quote | Lohkoteksti | C | yksi tai useampi tekstikappale, joka esitetään lainattuna muusta lähteestä. |
<Caption> | Caption | Kuvaotsikko | C | Kuvateksti, joka voidaan kohdistaa kuvan lisäksi myös taulukoihin. |
<Code> | Code | Koodi | D | Koodimerkintäelementti. Dokumenttiin upotettu tietokoneohjelmateksti. |
<Div> | Division | Yksikkö | A | Yksikköelementti. Yleinen lohkotason elementti tai lohkotason elementtien ryhmä. |
<Document> | Document | Dokumentti | A | Dokumentin elementti. Dokumentin koodimerkintäpuun juurielementti. |
<Figure> | Figure | Kuvio | C | Kuvamerkintäelementti. Kuva tai tekstiin liittyvä graafinen esitys. |
<Form> | Form | Lomake | D | Lomakemerkintäelementti. PDF-lomakkeen huomautus, joka voidaan täyttää tai on täytetty. |
<Formula> | Formula | Kaava | D | Kaavamerkintäelementti. Matemaattinen kaava. |
<H> | Heading | Otsikko | C | Epämääräinen otsikko. Ei yleisesti suositella käytettäväksi. |
<H1> | Heading Level 1 | Otsikko 1 | C | Otsikko-hierarkian ensimmäinen taso |
<H2> | Heading Level 2 | Otsikko 2 | C | Otsikko-hierarkian toinen taso |
<H3> | Heading Level 3 | Otsikko 3 | C | Otsikko-hierarkian kolmas taso |
<H4> | Heading Level 4 | Otsikko 4 | C | Otsikko-hierarkian neljäs taso |
<H5> | Heading Level 5 | Otsikko 5 | C | Otsikko-hierarkian viides taso |
<H6> | Heading Level 6 | Otsikko 6 | C | Otsikko-hierarkian kuudes taso |
<Index> | Index | Hakemisto | C | Hakemistoelementti |
<Lbl> | Label | Selite | B | Merkitsee ja erottaa luettelopallukan, -viivan tai numeron varsinaisesta luettelosisällöstä. |
<Link> | Link | Linkki | D | Linkkimerkintäelementti. Dokumenttiin upotettu hyperlinkki. Kohde voi olla samassa dokumentissa, toisessa dokumentissa tai Web-sivustossa. |
<L> | List | Luettelo | C | Luettelon ylätaso, joka sisältää sarjan LI-tageja. |
<LI> | List Item | Luettelon kohde | B | Yksittäinen luetteloitu kohde. |
<LBody> | List Item Body | Luettelon kohteen leipäteksti | B | Luetteloidun kohteen varsinainen sisältö |
<Note> | Note | Huomautus | D | Huomautusmerkintäelementti. Selittävä teksti tai huomautus, kuten ala- tai loppuviite, joka viittaa tekstin päärunkoon. |
<P> | Paragraph | Kappale | C | Tekstikappale |
<Part> | Part | Osa | A | Osaelementti Dokumentin suuri osa: sisällön pienempiä osia, kuten yksikkö-, artikkeli- tai osioelementtejä on voitu ryhmittää yhteen. |
<Quote> | Quote | Lainaus | D | Lainausmerkintäelementti. Osa tekstiä, jolla on eri tekijä kuin ympäröivällä tekstillä. Tämä elementti eroaa lohkotekstistä, joka on vähintään yksi kokonainen kappale. |
<Reference> | Reference | Viite | D | Viittausmerkintäelementti. Viittaus dokumentin muusta osasta löytyvään tekstiin tai tietoihin. |
<Sect> | Section | Osio | A | Osioelementti. Yleinen säilöelementtityyppi, verrattavissa Division-tyyppiin (DIV Class=”Sect”) HTML-kielessä. Tämä on yleensä osaelementin tai artikkelielementin komponentti. |
<Span> | Span | Alue | D | Ulottumamerkintäelementti. Sisäinen tekstiosa, jota käytetään rajoittamaan tyyliominaisuusjoukkoon kuuluvaa tekstiä. |
<Table> | Table | Taulukko | B | Taulukkoelementti. Kaksiulotteinen tietojen tai tekstisolujen yhdistelmä sisältää taulukon rivielementit alielementteinä. Sen ensimmäisenä tai viimeisenä alielementtinä voi olla kuvatekstielementti. |
<TD> | Table Data Cell | Taulukon datasolu | C | Taulukon yksittäisen solun tietosisältö |
<TH> | Table Header Cell | Taulukon otsikkosolu | C | Taulukon sarake- tai riviotsikko |
<TOC> | Table Of Contents | Sisällysluettelo | A | Sisällysluettelon ryhmätaso. Varsinaiset kohteet ovat TOCI-tagissa. |
<TOCI> | Table Of Contents Item | Sisällysluettelon kohde | C | Sisällysluettelon yksi luetteloitu osa. |
<TR> | Table Row | Taulukkorivi | C | Määrittää yhden taulukkorivin, joka sisältää yhden tai useampia taulukon data- tai otsikkosoluja |
This Post Has One Comment
Comments are closed.
Moi Sampo. Olisi pari tagi-juttua.
Kysymys 1.
Kun pdf-tiedostoon ajaa Acrobatilla tuon ’Lisää dokumenttiin merkinnät automaattisesti’ toiminnon, niin välillä Acrobat tekee Part-koodin tai useampia, joiden sisällä muut koodit lymyilevät ja välillä näitä Part-koodeja synny lainkaan, vaikka olisi kuinka monisivuinen pdf.
Olen ymmärtänyt, että Lähtökohtana olisi Document-koodi, jonka alla kaikki muut koodit olisivat.
Koskaan tuo automaattinen toiminto ei kuitenkaan tee juureen tuota Document-koodia, vaan aina Part-koodin tai sitten ei juuri-koodia lainkaan.
Mikä on Document ja Part koodin ero ja suhde toisiinsa? Onko pdf-tiedostossa aina oltava tuo Document-koodi vai vaihtoehtoisesti esimerkiksi yksi tai useampi Part-koodi esim. monisivuisessa pdf-tiedostossa? Ovatko ne samanarvoisia?
Lisäksi, jos ja kun yleensä pdf-tiedostossa on aina ensimmäisenä logo, niin miksi se ei automaattisesti mene tuon Part-koodin sisälle, vaan jää aina yksin juureen?
Kysymys 2:
Luettelo-tagit.
InDesign tekee luetteloille ja tagit, jotka menevät NVDA-ruudunlukuohjelman Puheentarkastelu toiminnon ikkunassa eri riveille ja erään instanssin mukaan niiden pitäisi olla tuossa Puheentarkastelu ikkunassa samalla rivillä. Tämä vaikuttaa kuitenkin aivan mahdottomalta InDesignista käsin.
Mielestäni aiemmin Word teki myös tuon koodin, mutta nykyään se ei sitä enää tee, ja nyt myös tuo luettelomerkki menee koodin sisälle ja koodia ei muodostu lainkaan. Toisaalta luin jostain, että on semanttisesti oikein, että on määritelty omakseen.
Näihin kaipaisin Adobe-asiantuntijan näkemystä ja kommentteja.