Počítače odhalují tajemná pravidla vývoje jazyka

22. 12. 2016 – 22:02 | Člověk | Jan Toman | Diskuze:

Počítače odhalují tajemná pravidla vývoje jazyka
Rekonstrukce Neandertálců. Ilustrační snímek | zdroj: Profimedia

O tom, že se jazyky v čase mění, nemůže být pochyb. Nemusíme jít ani tak daleko, jako do renesance – stačí porovnat dnešní češtinu třeba s tím, jak se mezi sebou bavili naši předkové před sto lety. Když vyrazíme dále do minulosti, můžeme sledovat příbuzenské vztahy mezi jednotlivými jazyky a jejich spojování do jazykových rodin, jako je například indoevropská. 

Kdesi v dávné minulosti se potom ukrývají společní předkové těchto jazykových rodin a možná i jakýsi mýtický "prajazyk". Řídí se ale evoluce jazyka nějakými konkrétními pravidly, nebo je tento proces čistě pod taktovkou historické náhody?

Podobné otázky si vědci kladou rovněž ohledně biologické evoluce a ani zde poměr zákonitosti a nahodilosti není úplně jasný. Co se však týče jazyka, v nedávné minulosti se výzkumníkům otevřely úplně nové možnosti, jak jeho vývoj sledovat – s pomocí informací digitalizovaných na internetu.

Nejnověji využila dvojice vědců z Británie a Argentiny databáze Google Ngram, která je volně dostupná všem uživatelům internetu na této adrese. Tato databáze prohledává více než pět milionů digitalizovaných knih starých až pět století. V jejím rámci je možné hledat první výskyty a změny frekvence různých slov či frází – od Abies alba po Zanzibar. Jde o ideální nástroj pro studium frekvence změn ve využívání různých slov.

Výzkumníci ze dvou stran Atlantiku se omezili na podstatná jména. Zejména proto, že mají více méně jasný význam a nesou nejvíce informace o kulturních změnách. Kvůli co největšímu množství dat si také jako hlavní analyzovaný jazyk vybrali angličtinu – jen u ní mohli při studiu digitalizovaných textů jít až 300 let zpátky do minulosti. Objevené zákonitosti ale podle nich platí i pro slovesa a uplatňují se také v dalších indoevropských jazycích – francouzštině, němčině, italštině, ruštině a španělštině.

Jaká pravidla tedy vědci s pomocí databáze a série počítačových analýz objevili? Asi nepřekvapí, že množství různých podstatných jmen s časem přibývá. Novějších digitalizovaných knih i novějších knih obecně je zkrátka více než těch starých.

Když si ale výzkumníci vynesli relativní frekvenci jednotlivých slov v různých dobách, narazili na něco daleko zajímavějšího – frekvence použití takřka všech podstatných jmen stoupá a klesá s periodou okolo 14 let. Tyto jazykové oscilace nemají žádné jednoduché vysvětlení. Možná souvisí s kulturními změnami nebo nástupy nových lidských generací, není však jasné, proč by měly trvat právě pozorovaných 14 let.

Jisté je, že ve své popularitě periodicky rostou a zase klesají takřka všechna slova. Slova, která jsou spolu nějak spřízněná – například ta, která se vztahují k římské republice, nebo naopak římskému císařství, mají ale jasnou tendenci měnit svou frekvenci pospolu.

Zatímco klesá výskyt slov jako Brutus, Scipio, Hanibal nebo Kartágo, jiná slova a jiné kategorie frekvenci svého výskytu naopak zvyšují. Vztahy mezi jednotlivými seskupeními spřízněných slov nabývají až vlastností "malého světa" – jejich osudy jsou úzce provázané mezi sebou, zatímco vazby se slovy z jiných seskupení jsou vzácné. V tom se podobají řadě přírodních systémů včetně třeba lidské společnosti.

Aby toho nebylo málo, další, méně výrazná perioda, na jejímž základě se frekvence slov mění, činí zřejmě 50 let. Na tu měla ale vliv hlavně literatura 20. století. Když se přibližujeme současnosti, zdá se navíc, že se perioda 14 let poněkud prodlužuje a stává se méně výraznou. Proč by tomu tak mělo být zatím nepopisuje žádná teorie.

O nic moudřejší nejsou jazykovědci ani u první objevené čtrnáctileté periody. Stejně tak není jasné, zda se objevené zákonitosti vztahují jen na skupinu indoevropských jazyků, nebo jsou úplně všeobecné. Jistí si tak můžeme být snad jen tím, že evoluce jazyka je možná stejně zajímavá, jako evoluce živé přírody.

Zdroj: Montemurro MA & Zanette DH (2016): Coherent Oscillations in Word-Use Data from 1700 to 2008. Palgrave Communications 2, online.

Zdroje:
Vlastní

Nejnovější články