
„Дури и за секојдневни зборови за кои би мислеле дека значат исто за сите, има варијации“, вели Вилијам Томсон, постдокторанд по компјутерски науки на Универзитетот Принстон и прв автор на статија на оваа тема објавена во август во списанието Nature Human Bеhavior. Неговиот тим обезбеди докази за нешто што интуитивно веќе го знаеме - дека начинот на којшто го толкуваме светот низ зборови е дел од нашето културно наследство.
Јазикот е призмата низ којашто го концептуализираме и го разбираме светот. Антрополозите и лингвистите долго време се обидуваат да ги дефинираат комплексните сили кои ги моделираат овие критични комуникациски системи. Но студиите кои се обидуваат да ги истражат овие прашања можат да бидат тешки за изведување, да бараат многу време и да вклучуваат долги, детални интервјуа со билингвални говорници кои би го проценувале квалитетот на преводите. Така, би биле потребни години и години за да се документира специфичен пар јазици и разликата помеѓу нив. Но моделите на машинско учење сега овозможуваат да ги поставиме овие прашања на ново ниво на прецизност.
Во спомнатата статија, Томсон и колегите ја искористиле моќта на овие модели за да анализираат 1000 зборови во 41 јазик. Наместо да се обидуваат да ги дефинираат зборовите сами по себе, тие го искористиле концептот на „семантички асоцијации“ или да детектираат зборови кои имаат некаква значајна врска еден со друг, односно често одат во „комплет“. Така семантичките асоцијации на „убаво“ би можеле да вклучуваат „љубов“, „скапоцено“, „шарено“, „деликатно“.
Истражувачите изработиле алгоритам кој споредува милиони вакви семантички асоцијации од различни јазици. Тој најпрвин ги преведувал овие асоцијации на одреден збор на друг јазик, а потоа процесот одел обратно. На пример, алгоритамот ги преведувал семантичките асоцијации на beautiful (убаво на англиски) на француски, а потоа на beau (убаво на француски) на англиски. Потоа бил пресметуван конечен коефициент на сличност за значењето на одреден збор врз основа на тоа колку асоцијациите во обата правци на преводот се поклопувале.
Резултатите покажале дека постојат некои речиси универзално преводливи зборови. Такви се оние кои се однесуват на бројки, професии, квантитет, календарски датуми и роднински врски. Но други видови зборови, особено оние кои се однесуваат на животни, храна и емоции, биле многу потешко споредливи.
Последниот чекор на истражувањето било да се процени колку се слични културите кои ги произвеле двата јазика, базирано на антрополошки дата-сет кој содржи податоци за брачните практики, законодавните системи и политичката организација. Алгоритамот можел точно да предвиди колку два јазика можат да се преведат врз основа на тоа колку се слични двете култури кои ги зборуваат. Ова покажува дека варијабилноста на значењето на некој збор не е случајна. Културата игра огромна улога во моделирањето на јазиците - нешто што е одамна претпоставено, но за што на истражувачите им беа потребни поголем број податоци за да го поддржат.