Донирај глас за „Буки“!

Сè започнува со едно паѓање од точак и кршење рака. На ова се надоврзува друга, емотивна загуба. Но сета тоа се преточува во креативност, од која произлезе нова платформа за транскрипција на усмен говор на македонски во текст. За нејзин понатамошен развој можете да придонесете и вие!

„Во 2019 паднав од точак и си ја скршив раката. Не можев да куцам со скршена рака, па затоа инсталирав апликација што ќе ми овозможи да ги диктирам пораките. Апликацијата работеше одлично на англиски, просечно на српски и никако на македонски. Си реков дека е само прашање на време и дека за неколку години сигурно ќе имаме добра алатка за транскрипција на македонски говор. Четири години подоцна почина татко ми, па посакав да ги транскрибирам неговите новинарски снимки.“

Вака започнува текстот на Никола Стиков на неговиот блог Кантарот. Ниту еден меѓународен проект што „се брои“ во бодови, слава и хонорари не може да биде толку мотивирачки како оние поттикнати од длабоко лични причини. Истовремено, неговата приказна содржи лекција: дека ако нешто не постои, или не работи доволно добро, наместо да се критикува, чека и кука, најпродуктивно е човек да се обиде („колку-толку професоре“) да стори нешто сам или со подеднакво ентузијастичен тим, за да биде поинаку. 

Токму така се случи „Буки“.

Тоа е отворен модел за препознавање и транскрипција на говор на македонски, креиран од Дејан Порјазовски, експерт за технологии на препознавање говор од Универзитетот „Аалто“ во Финска. Оваа негова работа е дел од активностите на Центарот за напредни интердисциплинарни истражувања (ЦеНИИс) при УКИМ. „Буки“ не само што овозможува препис на говор во текст туку и содржи интерпункција, мали и големи букви. Сета организација е токму на Никола, чија Фондација Кантарот ги покри и трошоците кои произлегоа за моделот да биде бесплатен и јавно достапен.

„Буки“ се тренираше на оригинални податоци. Со 40% учествуваа интервјуа собирани на терен од вработените и студентите од Институтот за етнологија и антропологија при ПМФ, транскрибирани и складирани во Дигиталниот архив за етнолошки и антрополошки ресурси (ДАЕАР); со 13% аудиоверзијата на меѓународното списание „ЕтноАнтропоЗум“ на истиот институт; на 34 епизоди од аудио подкастот „Обични луѓе“; научните видеа од серијалот „Наука за деца“ на фондацијата КАНТАРОТ и на македонската верзија на Mozilla Common Voice.

Преку нив се собрани 60 часа материјал кои се до сега вградени во моделот. Но за да можат да се транскрибира не само говор во живо туку и цели аудио фајлови потребни се барем 600. Донирајте го својот говор (со читање или зборување) или снимајте ги вашите постари или деца како нешто раскажуваат, со следење на упатство за Мозила Војсис тука. На тој начин буквално и метафорично ќе се вградите во културното наследство на иднината. 

Тестирање на моделот можете да направите тука. Едноставно е: се снимате (кратко парче), малку чекате гласот да се вчита, кликате „сабмит“ и во десното кутивче излегува текстот. Можете и да го споредите со претходно постоечките модели, дека е подобар од нив.

На пример:

Лично, сакав апликацијата да се вика „Јатрва“, бидејќи стереотипно овој лик од народната култура многу зборува. Ама и „Буки“ не е лошо. Затоа што додека чекате да се процесира говорот можете да си ја потпевнувате - Слушам кај шумат шумите, БУКИТЕ.

Илина, Букбокс

ПС. Од вчерашната промоција на моделот во Ректоратот на УКИМ

10 октомври 2024 - 09:06