Sémantický web

rozšíření webu umožňující výměnu dat

Sémantický web se má stát novým evolučním stupněm stávajícího webu. Jedná se o web, kde jsou informace strukturovány a uloženy podle standardizovaných pravidel, což usnadňuje jejich vyhledání a zpracování. Staví zejména na Resource Description Framework (RDF) a Ontology Web Language (OWL). Na specifikacích pro sémantický web pracuje World Wide Web Consortium (W3C).

Struktura sémantického webu podle konsorcia W3C

Myšlenku sémantického, neboli významového webu poprvé vyslovil Tim Berners-Lee v roce 2001, kdy upozornil na skutečnost, že současný web je pouze změť webových stránek, která neustále roste a ve které je stále složitější nalézt relevantní informace. Sémantický web je podle něj rozšířením současného webu, v němž informace mají přidělen dobře definovaný význam lépe umožňující počítačům a lidem spolupracovat. Sémantický web představuje reprezentaci dat na WWW. Je založen na technologii Resource Description Framework (RDF), která integruje širokou škálu aplikací využívajících syntaktický zápis v XML a identifikátory URI pro pojmenovávání. Znamená to tedy, že data prezentovaná na Internetu by měla mít přesně definovaný význam a dovolovat do značné míry automatizované (strojové) zpracování, které by se mělo realizovat pomocí softwarových agentů.

Základním krokem k vytvoření sémantického webu je konceptualizace dat dostupných na Internetu, jejíž klíčovým nástrojem jsou ontologie, aneb formalizované reprezentace znalostí určené k jejich sdílení a znovupoužití. Sémantický web je dále založen na standardizovaném popisu webových zdrojů (vše, dosažitelné pomocí WWW, tedy textové dokumenty, obrázky, videosekvence, zvukové soubory apod.). Každý zdroj by byl vybaven stejnými charakteristikami údaji (autor, typ zdroje, klíčová slova atd.), což by umožnilo uživatelům Internetu pracovat se sítí WWW jako s relační databází a dotazovat se na její obsah prostřednictvím jazyků podobných SQL. Důraz by se kladl na vysokou přesnost a relevanci odpovědi na vyhledávací dotaz.

Technologickým základem sémantického webu by se měl stát standard RDF (Resource Description Framework) - obecný rámec pro popis, výměnu a znovupoužití metadat. Poskytuje jednoduchý model pro popis zdrojů, který není závislý na konkrétní implementaci. Datový model RDF umožní specifikovat trojice (zdroj, vlastnost, hodnota vlastnosti). Tímto se jedná mimo jiné o přiřazení sémantiky webovým zdrojům, což je pro sémantický web klíčové.

Sémantický web propaguje Tim Berners-Lee již řadu let, přesto se dosud nedočkal výrazného rozmachu, pravděpodobně protože je oproti stávajícímu webu příliš komplikovaný. Proto vznikají jednodušší způsoby, jak do stávajícího webu snadno přidat sémantickou informaci: Mikroformáty a RDFa.

Příklad webu

editovat

Související články

editovat

Některé z výzev pro sémantický web zahrnují rozlehlost, vágnost, nejistotu, nekonzistenci a podvod. Systémy automatického uvažování se budou muset vypořádat se všemi těmito problémy, aby splnily příslib sémantického webu.

  • Rozsáhlost: World Wide Web obsahuje mnoho miliard stránek. Samotná ontologie lékařské terminologie SNOMED CT obsahuje 370 000 názvů tříd a stávající technologie dosud nedokázala odstranit všechny sémanticky duplicitní termíny. Jakýkoli automatizovaný systém uvažování se bude muset vypořádat se skutečně obrovskými vstupy.
  • Vágnost: Jedná se o nepřesné pojmy jako „mladý“ nebo „vysoký“. Vyplývá to z vágnosti uživatelských dotazů, pojmů představovaných poskytovateli obsahu, přiřazování pojmů dotazu k pojmům poskytovatele a snahy kombinovat různé znalostní báze s překrývajícími se, ale jemně odlišnými pojmy. Fuzzy logika je nejběžnější technika pro řešení vágnosti.
  • Nejistota: Jedná se o přesné pojmy s nejistými hodnotami. Pacient může například vykazovat soubor příznaků, které odpovídají řadě různých odlišných diagnóz, každá s jinou pravděpodobností. K řešení nejistoty se obecně používají techniky pravděpodobnostního uvažování.
  • Nekonzistence: Jedná se o logické rozpory, které nevyhnutelně vyvstanou během vývoje velkých ontologií a při kombinování ontologií ze samostatných zdrojů. Deduktivní uvažování katastrofálně selhává, když čelí nedůslednosti, protože „cokoli vyplývá z rozporu“. Zničitelné uvažování a parakonzistentní uvažování jsou dvě techniky, které lze použít k řešení nekonzistence.
  • Podvod: Toto je situace, kdy výrobce informací záměrně uvádí spotřebitele informací v omyl. Ke zmírnění této hrozby se v současnosti používají kryptografické techniky. Poskytnutím prostředků k určení integrity informací, včetně těch, které se týkají identity subjektu, který informace vytvořil nebo zveřejnil, je však stále třeba řešit otázky důvěryhodnosti v případech potenciálního podvodu.

Tento seznam výzev je spíše ilustrativní než vyčerpávající a zaměřuje se na výzvy pro vrstvy „sjednocující logiky“ a „důkazů“ sémantického webu. Inkubační skupina World Wide Web Consortium (W3C) pro zdůvodňování nejistoty pro World Wide Web[1] (URW3-XG) shrnuje tyto problémy dohromady pod jedinou hlavičkou „nejistota“.[2] Mnoho zde zmíněných technik bude vyžadovat rozšíření jazyka OWL (Web Ontology Language), například pro anotaci podmíněných pravděpodobností. Jedná se o oblast aktivního výzkumu.[3]

Reference

editovat
  1. World Wide Web Consortium (W3C). www.w3.org [online]. [cit. 2022-04-03]. Dostupné online. 
  2. Proceedings of the 2018 World Wide Web Conference on World Wide Web - WWW '18. New York, New York, USA: ACM Press Dostupné online. ISBN 978-1-4503-5639-8. 
  3. LUKASIEWICZ, Thomas; STRACCIA, Umberto. Managing uncertainty and vagueness in description logics for the Semantic Web. Journal of Web Semantics. 2008-11, roč. 6, čís. 4, s. 291–308. Dostupné online [cit. 2022-04-03]. DOI 10.1016/j.websem.2008.04.001. (anglicky) 

Literatura

editovat

Externí odkazy

editovat