ISOcat (ISO12620)

Allikas: Keeleleek

ISOcat (www.isocat.org) on ühiselt hallatav (lingvistiliste) andmekategooriate register (data category registry). Andmekategooriat võib siin mõista kui lingvistiline kategooria või paradigma või nendest koosnev kompleks ehk konstruktsioon. Registris olevaid kategooriaid on võimalik kasutada andmete märgendamisel (nt korpuse koostamisel) nendele osutades, niiviisi on võimalik standardiseerida lingvistide terminoloogiat. Registris ei ole võimalik määrata andmekategooriate ontoloogilisi suhteid, kuna ontoloogiad on tihti rakendus- või valdkonnaspetsiifilised. Andmekategooriate linkimine ja ontoloogia mudelleerimine on ettenähtud sarnase põhimõttega kataloogi RELcat abil.

ISOcat registri eellane (ISO 12620:1999) oli sisuliselt staatiline nimistu, aga kuna sellisel nimistul on raske olla täiuslik või universaalne, on nimistu uue standardi (ISO 12620:2009) järgi kujutatud dünaamilise andmebaasina, mida on kõigil võimalik täiendada ja muuta. ISOcati eesmärk on siiski jõuda stabiilse terminoloogilise nimistuni (Windhouwer, Schuurman & Wright 2013[1]).

Andmekategooria spetsifikatsioon koosneb kolmest osast: a) administratiivne osa määrab mh püsi-id; b) kirjeldav osa sisaldab dokumentatsiooni (võimalik mitmes keeles rööpselt); c) lingvistiline osa määrab kontseptuaalse domeeni.

Registri tähtsus seisab niisiis eelkõige lingvistika terminoloogia ühtlustamises, teisalt aga võiks see aidata kaasa ka terminide operatsionaliseerimisel.

Alljärgnev tekst refereerib puhtalt (Windhouwer, Menzo & Sue Ellen Wright. 2012[2]) teksti, mille ingliskeelne mustand on kättesaadaval ISOcat leheküljelt.


Andmekategooriatele osutamine XML-põhistest ressurssidest

ISOcat (ISO 12620) on rohujuure tasandi lingvistiline andmekategooria register, mis võimaldab igal kasutajal luua oma andmekategooriaid või kasutada teiste loodud. Andmekategooriate taaskasutamine käib osutamise teel ehk linkide abil. ISOcat defineerib selleks lihtsa andmekategooriate osutusssüsteemi XMLi jaoks (data category reference xml vocabulary). Selline osutamine vajab püsivaid identifikaatoreid.


Püsiidentifikaatorid

Kasutades püsivaid identifikaatoreid (persistent identifiers ehk Cool URI[3]) võimaldab kasutada andmekategooriaid ainult nendele osutades ehk linkides, seega toetab see andmekategooriate taaskasutatavust. PISA standard kirjeldab püsiidentifikaatorite nõudeid (ISO 14619).


Andmekategooria tüübid

  • Complex data categories have a typed value domain; the DCR data model supports various ways to describe these value domains:
  • Open data categories can take any value allowed by the associated type;
  • Closed data categories enumerate their allowed values as simple data categories (see below);
  • Constrained data categories restrict their allowed values by one or more rules, e.g., any day in the 20th century;
  • Simple data categories are describe values associated with a closed data category;
  • Container data categories don’t have a value domain but can be used to group other container or complex data categories together.

ISOcat ei võimalda konteinerite taaskasutamist (see tekitaks rekursiivset defineerimist, mis takistaks standardiseerimis-protsessi).


Andmekategooriatele osutamine RDF-põhistest ressurssidest

Ülaltoodud andmekategooria osutamine teeb kasutatud (osutatud) elementide, attribuutide ja väärtuste semantika eksplitsiitseks, aga selline eksplitsiitsus ei taga veel mitme osutatud süsteemi vahelist semantilist kooskõla. Kuna andmekategooriate tüübid ei ole lihtsalt üks-ühele kujutatavad RDF tüüpidele, jätab ISOcat praegu mudelleerijale vabaduse kohandada need enda terminoloogiaga ühilduvaks.

Tööd andmekategooriate ja RDF tüüpide vahelise (pool-)automaatse konverteerimise nimel jätkuvad, aga seni on näidanud kõige viljakamaks võtteks kasutada neutraalset RDF predikaati dcr:datcat.


Ontoloogilised suhted ehk RELcat

Kuna ontoloogilised suhted on tihti väga spetsiifilised valdkonnale või rakendusele, ei sisalda ISOcat ontoloogilisi suhteid, vaid on sisuliselt lame andmekategoorianimistu. ISOcati ainus suhe on, nagu üleval mainitud, kahetasandiline suhe kompleksi ja selles sisalduva lihtandmekategooria vahel.

Eraldi osutamissüsteem, RELcat, on mõeldud võimaldamaks kirjeldada ontoloogilisi suhteid ISOcatis. RELcat võimaldab linkida ka teistele lingvistiliste metaandmesüsteemidele, ontoloogiatele ja taksonoomiatele.


Ontoloogiliste suhete tüübid

RELcat võimaldab järgmisi ontoloogilisi suhteid:

  • seotud (related)
  • sama kui (same as) on sümmeetriline ja transitiivne suhe
  • peaaegu sama kui (almost same as) on sümmeetriline suhe
  • laiem kui (broader than) on transitiivne suhe
  • ülemklass (superclass) on transitiivne suhe
  • kuulub osa (has part) on transitiivne suhe
  • kuulub otsene osa (has direct part)
  • kitsam kui (narrower than) on transitiivne suhe
  • alamklass (subclass) on transitiivne suhe
  • on osa (part of) on transitiivne suhe
  • on otsene osa (direct part of)

Muidugi võimaldab RELcat kasutada (osutada) teiste ontoloogiate sõnavarasid.


Kirjandus

  1. Windhouwer, Menzo, Ineke Schuurman & Sue Ellen Wright. 2013. Collaboratively Defining Widely Accepted Linguistic Data Categories in the ISOcat Data Category Registry. Montpellier.
  2. Windhouwer, Menzo & Sue Ellen Wright. 2012. Linking to Linguistic Data Categories in ISOcat. In Christian Chiarcos, Sebastian Nordhoff & Sebastian Hellmann (eds.), Linked Data in Linguistics, 99–107. Springer Berlin Heidelberg. http://link.springer.com/chapter/10.1007/978-3-642-28249-2_10 (4 October, 2013).
  3. Tim Berners-Lee, 1998