Korpusová lingvistika

Korpusová lingvistika je odvětví lingvistiky, které se objevilo díky počítačům a informačním technologiím. Je to disciplína zkoumající jazyk pomocí elektronických jazykových korpus ů a zabývající se i výstavbou těchto korpusů, jejich zpracováním a příslušnou metodologií. Vznikla v 50. letech minulého století, kdy si američtí lingvisté (Hill a Harris) uvědomili, že korpus je nutným empirickým základem pro vytvoření popisu gramatiky přirozeného jazyka. V 60. letech se rozvíjí korpusová lingvistika v novém pojetí a to vznikem Survey of English Usage (SEU), v jehož rámci se počítalo i se zpracováním mluveného anglického jazyka, toto však nebylo orientováno počítačově. V roce 1967 začali Čech H. Kučera a Američan N. Francis na Brown University v USA pracovat na Computation Analisis of Present-Day American English – počítačový korpus současné americké angličtiny obsahující pouze psané texty. Dnes je v jednotlivých jazycích korpusů již mnoho, například British National Corpus [1] obsahující 100 milionů slov a také významnou složku mluvenou.

Prudký rozkvět tohoto odvětví byl zaznamenán s rychlým rozvojem výpočetní techniky, nejvýrazněji pak v posledních dvou desetiletích 20. století. Korpusová lingvistika není novou teorií jazyka, využívá důsledně jazykových dat, zkoumá texty, které se chápou jako rozsáhlé produkty jazykového systému a schopností jejich tvůrců a skrze ně dospívá k poznání obecnějších jazykových zákonitostí a pravidel.