За вештачката интелигенција: интервју со Кристе Крстовски, наш човек на Универзитетот Колумбија

Секоја приказна на наш млад исселеник е посебна, но за да биде успешна таа секогаш мора да содржи неколку основни елементи: многу трудољубивост, моменти на носење исправни одлуки и секако малку среќа. Од ова исцрпно интервју со Кристе, некогаш скопјанец денес њујорчанец, изгледа дека тој ги спакувал трите нешта во едно. Техничките детали и термините кои се тешко преводливи на македонски се оставени во оригинал, но оние во браншата сигурно ќе ги разберат, а другите можеби нешто и ќе научат. 

​Може ли накратко да ни ја претставиш твојата биографска траекторија, од детството во Скопје, па до емиграцијата и позицијата на професор на Колумбија?

Средно образование завршив во Орце Николов. Инаку почнав да изучувам програмирање уште во четврто одделение а веќе во петто почнав и да се натпреварувам. Курсеви за програмирање посетував во Народна техника. Благодарение на институции како оваа, кои постоеа во тоа време, дури и во основно училиште младите имаа можност да изучуваат програмирање користејќи компјутери кои беа реткост. 

Моите додипломски студии по електро и компјутерско инженерство ги завршив на Универзитетот во Њу Хемпшир (UNH). За време на моите студии имав ретка можност да се приклучам на еден револуционерен истражувачки проект наречен Project54 кој беше спонзориран од Американското министерство за правда, во соработка со државната полиција на државата Њу Хемпшир (New Hampshire State Police).  Во овој проект ние развивме систем кој што му овозможува на полицискиот службеник да ги контролира сите уреди во полициското возило (радио, радар, светлосната и звучна сигнализација) и да врши проверка на информациите за возилото и возачот со помош на говорни команди. Системот беше развиен и имплементиран во над 1000 полициски возила ширум Америка вклучувајќи ја целата флота на возила на државната полиција. 

Моите истражувачки придонеси на Project54 ме натераа да останам на UNH и таму да ги продолжам моите магистерски студии како член на Consolidated Advanced Technologies for Law Enforcement Laboratories (CATLAB) - лабораторија која што го водеше проектот. Првично планирав веднаш после моето магистрирање да продолжам со докторски студии во познатата Медија Лабораторија (Media Lab) на Massachusetts Institute of Technology (MIT) каде што и бев примен. Меѓутоа одлучив истите да не ги продолжам веднаш туку наместо тоа се приклучив на уште еден револуционерен проект кој тогаш започнуваше а беше спонзориран и воден од Defense Advanced Research Projects Agency (DARPA) - агенцијата за напредни истражувачки проекти при Министерството за одбрана на САД, одговорна за развојот на таканаречени „нарушувачки технологии“ (disruptive technologies) како што се интернетот, ГПС системот, сателитската комуникација, систем за самоуправување на возилата, автономни роботи, итн. Истите се нарекуваат нарушувачки технологии затоа што во позитивна смисла го нарушуваат нашиот секојдневен живот. DARPA проектот со наслов Spoken Language Communication and Translation for Tactical use (TransTac) кој што го работев во компанијата BBN развиваше една таква нарушувачка технологија. Во склоп на овој проект ние го развивме првиот систем во светот кој што во реално време прави симултан превод од еден во друг јазик и обратно. Toa e т.н. speech to speech translation system, кој што ја совладува јазичната бариера и овозможува соговорници кои што зборуваат два различни јазици слободно да комуницираат - двата соговорници зборуваат на мајчиниот јазик а системот во реално време го претвoра говорот во текст, текстот се преведува и истиот го синтетизира (изговорува) во јазикот на другиот соговорник кој што го слуша преводот.  

BBN е легендарна истражувачка компанија во областа на вештачката интелигенција и за истата има и книга со наслов “Where Wizards Stay Up Late”, која беше бестселер на листата Њујорк Тајмс. Во времето кога се приклучив, BBN веќе подолго време беше сметан за трет универзитет во Cambridge, Massachusetts заедно со MIT и Harvard. Во минатото BBN има водено многу револуционерни проекти меѓу кои и ARPANET, исто така проект на DARPA - што е всушност претходникот на интернетот. Таму меѓу другите работеа и работеле најголемиот број од научниците основачи на областа AI - Марвин Мински, Џон МекКарти, Оливер Селфриџ, Ј.K.Р. Ликлијдер и Симор Паперт кои што всушност го воведоа терминот artificial intelligence - AI во 1955-та година. Како резултат на сите овие иновации во 2011-та година претседателот Барак Обама ни врачи Национален медал за технологија и иновации (National Medal of Technology and Innovation). 

Додека работев во BBN, поминав 2 семестри на MIT каде што изучував докторски предмети по вештачка интелигенција. Во BBN работев и на неколку други DARPA проекти како што се BOLT (Broad Operational Language Translation) и  MADCAT (Multilingual Automatic Document Classification Analysis and Translation). 

Што се случи по завршувањето на проектот?

Откако го совладавме овој научен предизвик, целиот мој тим се префрли да работи во Амазон и го разви сега популарниот виртуелен асистент Амазон Alexa којшто го има низ голем број домаќинства во Америка и светот. Јас одлучив целосно да се посветам на докторските студии и истите ги продолжив во светскиот водечки центар за претражување информации (information retrieval) - област во вештачка интелигенција, наречен Center for Intelligent Information Retrieval (CIIR) кој што е дел од University of Massachusetts Amherst (UMass Amherst). Школата за компјутерски науки на UMass Amherst ја има една од најдобрите програми за докторски студии во AI во Америка а и во светот. Како дел од моите докторски студии на UMass Amherst имав можност да учам од и соработувам со водечките научници во AI како што се Дејвид Смит, Брус Крофт, Џејмс Алан и Ендрју МекКалум. 

На половина пат од моите докторски студии (кои што инаку траат во просек 6 години) бев избран за Predoctoral Fellow на Харвард и моите докторски истражувања ги продолжив во Harvard-Smithsonian Center for Astrophysics (CfA) каде што работев на Astrophysics Data System-oт - проект спонзориран од NASA. Во мојата последна година на Harvard земав учество во Harvard President’s Challenge  (натпревар чија што цел е студентите да дојдат до креативни решенија за најгорливите проблеми во светот) и го освоив второто место и награда од $10.000 кој што на мојот тим ни ја врачи ректорот на Харвард - др. Дру Фауст.  

После завршувањето на докторските студии бев примен во истражувачката група на професор Дејвид Блаи на Колумбија и Џон Лаферти на Јеил како постдокторанд. И двајцата професори се водечки научници во областа на машинското учење и AI. Истите се веќе влезени во историјата на компјутерските науки - првиот за измислувањето на latent Dirichlet allocation (LDA) моделот и вториот за conditional random fields (CRFs). Всушност проф. Блаи, чии трудови моментално имаат повеќе од 120.000 цитати, претходно бил постокторанд во групата на проф. Лаферти. 

После завршувањето на мојот постдокторат ми беше понудена мојата сегашна позиција на Универзитетот Колумбија, истражувач (research scientist) во Data Science Institute на Columbia University и вонреден професор на Columbia Business School каде што моментално предавам докторски предмети по машинско учење (machine learning) и обработка на природен јазик (natural language processing - NLP).

Зошто во еден момент одлучи да ја напуштиш индустријата и да се вратиш кон академија? 

Тоа беше со цел да се стекнам со знаење и истражувачко искуство во други предизвикувачки области од вештачката интелигенција. Да се биде дел од врвните истражувачки проекти бара континуирана едукација и запознавање со нови области во науката кои што содржат предизвици и сеуште нерешливи проблеми. Целта е најпрво да се утврдат истражувачките предизвици и дефинираат специфичните проблеми во таа област а потоа и да се совладаат. Како дел од мојот докторат, којшто ги вклучува областите на машинско учење, обработка на природен јазик и пребарување информации, , јас истражував и развив напредни AI модели кои што автоматски и ефикасно ги препознаваат и екстрахираат скриените тематики во текстот, т.н. “efficient latent variable models of text” во моно и мултилигвални колекции на документи.  

Во текот на овој период, а многу пред денешната „тренди“ технологија која користи јазични модели, си имал прилика да работиш на оваа тема. Може ли да ни кажеш нешто повеќе за истото?

Како што претходно напомнав имав ретка можност да работам на два револуционерни проекти – Project54 и TransTac. И во двата проекти беа користени т.н. jазични модели (language models) во склоп на комплексни компјутерски системи за конверзија на говор во текст (speech recognition) и машински превод од еден во друг јазик (machine translation). 

Во Project54, како дел од мојата магистратура, јас развив компјутерски систем што им овозможува на полициските службеници со говорни команди да ги контролира сите електронски уреди во автомобилот и да врши проверка на досието на возачот додека се надвор од нивните полициски возила.  Пример, полицискиот службеник му приоѓа на сопреното возило, возачот му ја покажува возачката дозвола, истата полицискиот службеник со говорни команди најпрво ја скенира а потоа издава команда за информациите на возачот се проверат во централната база на податоци. Податоците за возачот преку радиото во полициското возило се добиваат назад до  т.н. handheld computer (претходник на паметниот телефон или smartphone) каде што системот со помош на синтеза на говор (speech synthesis) истите му ги изговорува на полицискиот службеник преку bluetooth слушалки.  
Во овој систем јазичните модели се користат за да се добие попрецизен резултат во процесот на претварање на говорните команди во текст кои што потоа системот ги обработува. Пример, полицискиот службеник може да издаде команда “check records” но поради големa бучава на патот, или пак заради начинот на кој што е изговорен, истата да звучи и да биде препознаена од акустичкиот модел (acoustic model) на систем за конверзија од говор во текст (speech recognition) како “czech records” или пак “cheek records”. Јазичните модели прават корекција на истото затоа што веројатноста да ја имаш фразата “check records”  е многу поголема од веројатноста да ги имаш фразите “czech records” или “cheek records”. 

Во склоп на TransTac проектот јас првично бев одговорен за развиток на “speech-to-speech translation” системот на handheld computer кој што за разлика од обичен компјутер или пак лаптоп има лимитари мемориски и процесорски ресурси. Speech to speech системот се состои од 6 главни компоненти: системи за конверзија на англиски и странски говори во текст (speech recognition), системи за машински превод на англискиот текст во странски и обратно (machine translation), и системи за конверзија на англиски и странски текст во говор (speech synthesis или text to speech). Во овој систем клучна улога имаат јазичните модели на англискиот и странскиот јазик и тоа за добивање прецизни резултати во конверзијата на говорот во текст (слично на улогата што ja опишав претходно) и машинскиот превод на текстовите од еден на друг јазик. Во машинскиот превод, јазичните модели се користеа за корекција на моделот за превод (translation model) и правилна конструкција на реченицата во странскиот јазик. 

NYTimes статија за handheld верзијата на системот.

Која е разликата помеѓу овие претходни модели и денешните, базирани на неврални мрежи? 

Јазичните модели (т.н. language models) официјално постојат уште од некаде 1948 кога Клод Шенон, таткото на информациската ера и теоријата на информации, го воведува концептот на информациска ентропија и ги прави првите мерења за тоа колку информација е потребно за да се предвидат зборовите во англискиот јазик. 

Еден подолг период доминантни јазични модели беа т.н N-gram модели. Тоа се статистички модели кои што овозможуваат моделирање на секвенца од зборови (пр. реченица) со помош на т.н. Марков процес (Markov process). Истите го предвидуваат следниот збор во реченицата со помош на условна веројатност (conditional probability). Поконкретно, N-gram моделите користат едноставна, односно упростена, претпоставка дека веројатноста на следниот збор во текстот е условена само од претходните N-1 зборови наместо од сите претходни зборови. Пример bigram варијантата на овој модел претпоставува дека веројатноста на следниот збор  во реченицата е условена од претходниот збор -  Во trigram варијантата, веројатноста на зборот   е условена од претходните два збора - Наједноставниот од оваа фамилија модели е униграм (unigram) моделот каде што веројатноста на  не е условена од ниту еден претходен збор и истата се пресметува како веројатност на појавување на самиот збор  

За илустрација доколку текстот е реченицата “Во наше време.” со помош на bigram моделот веројатноста на таа реченица се пресметува како продукт на следниве условни веројатности:

p("Во наше време")= p("Во"|START)*p("наше"|"Во")*p("време"|наше)*p(STOP|"време")

Со репопуларизацијата на невралните мрежи и нивното ребрендирање во deep learning, на почетокот на 21-виот век т.н. неврални јазички модели станаа најпрецизни и полека ја презедоа улогата на N-gram моделите како најкористени јазични модели. Овие модели самите учат репрезентација на зборовите како мултидимензионални вектори (сет од неколку стотина до неколку илјади децимални вредности), т.н. embedding representation, кои што потоа се користат да го предвидат наредниот збор во текстот. Информацијата што е содржана во тој вектор овозможува моделот да прави предвидувања со висока точност. Овие “embedding vectors” можат да се користат и за добивање на семантички репрезентации на други објекти што се присутни во еден текст. Пример во минатото јас имам развиено модел (т.н. Equation Embeddings) каде што компјутерот самиот учи да го интерпретира значењето на математичкиот израз како на пример равенка која што е содржана во текстот и да ја самиот дефинира односно објасни со зборови. Пример ако изразот е познатата Ајнштајновата равенка , тогаш моделот самиот учи дека тоа е равенката за односот меѓу масата и енергијата од Ајнштајнова теорија за специјална релативност. 

Со текот на времето почнаа да се измислуваат различни типови арxитектури на неврални мрежи (пр. RNN и нивни варијации како LSTM, GRU, итн.) кои што водеа до повисока прецизност во предвидувањата на следниот збор во текстот. Кај овие модели се воспостави дека неврални архитектури со огромен број параметри доведуваат до многу висока прецизност низ различни комплексни задачи што одат подалеку од само предвидувањето на следниот збор во текстот. Истите почнаа да се нарекуваат large language models (LLMs).  

Најновата генерација на неврални јазични модели како ChatGPT i GPT-4 (кои се развиени од OpenAI) се базирани на еден специфична невронска арxитектура наречена Тransformer (преставена од Google во 2017-та година) која што за разлика од претходните архитектури, особено RNN семејството на архитектури, нуди понапредна  репрезентација на текстот. До скоро истите се референцираа како large, transformer based, language models но полека се воспоставува пракса да се користи изразот foundation models особено за моделите кои што користат неколку милијарди параметри. Овие модели имаат способност да состават цели текстови на разно разни теми и да генерираат исцелни одговори на комплексни прашања со помош на инструкции т.н. prompts. Една од нивната најитересна напредна, а истовремено и неочекувана карактеристика, е т.н. “in-context learning” - можноста на моделот преку јазичен опис на задачата да ја изврши истата со висока прецизност без притоа моделот да биде трениран на таа задача.

Foundation моделите не се енормно комплексни да се развијат и големите технолошки гиганти веќе имаат свои еквиваленти нa GPT семејството модели. Пример AlexaTM од Amazon или LLaMA од Facebook, PaLM od Google, итн. Всушност Google од поодамна има неколку вакви модели кои што се публикувани. Некои од овие модели се дури и подобри од GPT моделите на т.н. kомплексни NLP задачи, една од кои е т.н.  Winogram schema. Сигурен сум и дека доста други технолошки гиганти кои што имаат средства работат на развивање на свои foundation модели. Проблемот со овие модели е што тие не се достапни на јавноста преку едноставен интерфејс како што тоа го направи OpenAI. Всушност GPT-3 и ChatGPT моделите станаа толку популарни токму заради тој едноставен интерфејс кој овозможи сите да можат да ги пробаат и експериментираат со нив и тоа бесплатно до одреден лимит на генерирани зборови. 

Најголемиот предизвик за да се развијат ваквите модели лежи во потребата да се има огромна хардверска архитектура - првенствено огромен број на графички процесори (GPUs), меморија, и се разбира многу струја. Заради тоа тренирање на вакви модели чини доста (и до неколку милиони долари). Втор најголем предизвик е потребата моделот да се тренира на огромни колекции од текстови на разноразни теми кои што ги има во изобилие, особено на англиски јазик, меѓутоа тие бараат соодветно текстуално процесирање со цел информациите односно текстовите да бидат од висок квалитет. 

Каков е твојот став кон крајната употреба на сите овие технологии? Дали во нив гледаш некакви етички дилеми, од доведување под знак прашање на начинот на академско оценување и вреднување до укинување на работни места? Што е со примената на некои од спомнатите технологии за поефикасна воена стратегија?

Благодарение на напредoкот на вештачката интелигенција ние сме сведоци на настанокот на енормен број технологии кои создаваат огромни позитивни промени во нашиот секојдневен живот како на пример: хуманоидни роботи (кои што сами учат да одат, да се ориентираат во просторот и да го мапираат истиот, да совладуваат препреки и со тоа можат да помогнат во спречување и санирање на катастрофи како што се Фукушима или пак Чернобил каде што луѓето едноставно не можат да функционираат во одредени средини), самонаведувачки автомобили, алгоритми кои што генерираат нови молекули и лекарства, алгоритми кои што генерираат одговори на комплексни прашања и решаваат комплесни задачи со поголема прецизност од човечката, итн. 

Масовното продирање на овие технологии во разноразни области веќе доведува до укинување на работни позиции кои што традиционално се водени од луѓето. Овој тренд ќе продолжи и во иднина со уште поголем интензитет. Интензитетот ќе се зголемува пропорционално со зголемувањето на нивната прецизност, а особено со зголемувањето на нивната робустност и правичност и со намалување на пристрасноста на алгоритмите позади овие технологии. 

Ова на прв поглед звучи загрижувачки но долгорочно тоа ќе доведе да фокусот на нашето образование, тренинг и квалификации биде во области што се понапредни од постојните каде што човекот не ќе може да се замени, ќе прави одреден тип на надзор или пак ќе работи заедно со AI системот. 
Иако голем број од овие напредни технологии се доста прецизни (дури и во некои задачи имаат прецизност далеку повисока од човечката) сепак ние сме сеуште далеку од тоа да можеме целосно да се потпреме на нивната автономност. Една од проблематките кои што во последно време е фокус на истражување е пристрасностa, правичностa, отчетностa, транспарентностa, и етиката на овие алгоритми - многу значајни концепти што ние луѓето лесно ги разбираме но тоа не е случајот и со алгоритмите.

Најновите foundation модели (пр. ChatGPT) дефинитивно го доведуваат под знак прашање начинот на академско оценување и вреднување затоа што со помош на истите огромен број на комплексни прашања можат да се одговорат со огромна леснотија. Овие модели можат и да положат доста комплексни стандардизирани тестови во разни области. Последниве година дена сме сведоци на безброј дебати за тоа како истите да се интегрираат во постојните академски програми и водечките универзитети, вклучувајќи го и Универзитетот Колумбија, веќе вложуваат напори и средства за истото. Еден од начините на интеграција е да пример наместо самиот да го одговори прашањето од домашната задача или тест, од студентот се очекува да одговорот го генерира со помош на foundation модел и потоа истиот да го евалуира и коментира. Еден од проблемите со овие модели е тоа што тие спорадично можат да генерираат одговори на прашања што на прв поглед делуваат доста сигурно/уверено и логично меѓутоа не се ни блиску до вистинските одговори заради тоа што не содржат точни информации. Овој феномен е наречен “model hallucination” (халуцинирање на моделот). 

Вештачката интелигенција веќе подолго време се применува во различни области од национален интерес кои што ги вклучува безбедносните служби и војската. Всушност perceptron алгоритмот - т.н. вештачки неврон (artificial neuron) или т.н. градбен елемент на невралните мрежи беше измислен во 1957 благодарение на истражувачката работа на др. Френк Розенблат која беше финансирана од U.S. Office of Naval Research, - истражувачката гранка на американската морнарица. 

Никогаш не треба да бидеме загрижени за примената на AI од страна на државата од едноставна причина што таквата примена е строго регулирана и развиените држави веќе имаат креирано строги протоколи. Она што треба да не загрижува е примената на AI од страна на приватните компании особено кога се во прашање давањето на нашата согласност за пристап до нашите податоци секојпат кога креираме корисничкa сметка на некоја онлајн платформа особено на социјалните мрежи. 

Пример што последно време е загрижувачко е што OpenAI ги направи нивните GPT модели лесно достапни и многумина од нас истите ги имаат пробано. Во целиот тој процес ние не баш обрнуваме внимание на типот на информации што ги внесуваме на тие платформи - информации кои што можат да бидат од приватен карактер или пак доста чувствителни доколку станува збор за информации од работен карактер. Секоја информација која што ја внесуваме на таквите платформи се логира го системот и понатака може да се користи за подобрување на истиот. 

Истото важи пример и за платформи од типот на Гугл транслејт (Google Translate) кој многу од нас го користат за бесплатен превод на текст од еден во друг јазик. Секогаш кога внесуваме текст за превод на таа платформа истиот се логира и зачувува во системот. 

Дали соработуваш со колеги од Македонија и како го оценуваш она што тие го работат - колку е блиску или далеку од светските текови?

За жал не соработувам со колеги од Македонија. Не би можел да кажам колку тоа што они го работат е блиску до светските текови. Судејќи според научните трудови кои што се публикуваат во водечките конференции во област на AI би можел да кажам дека изминативе неколку години се повеќе се појавуваат македонски автори но тие во најголемиот дел се јавуваат како дел од тимови на странските универзитети и лаборатории. За да било кои од модерните и напредни трендови во AI, особено во областа на NLP како што се foundation моделите, почнат да се развиваат а потоа и применуваат во Mакедонија на македонски јазик потребни се големи и разновидни колекции од текстови на македонски јазик. Јас во 2019-та година им пријдов на МАНУ со предлог проект да развиеме една едноставна база на податоци заедно со онлајн платформа каде што разни колекции од текстови на македонски јазик би ги направиле лесно достапни. Сметав дека МАНУ би требало да биде водач на таа иницијатива заради фактот што таква база на податоци и платформа е од национален интерес. Иницијално беа многу заинтересирани за проектот и ме охрабрија веднаш да напишам формален предлог кој што го доставив веќе наредниот ден но за жал никогаш не добив официјален одговор од нив. 

Што правиш во слободно време? Имаш ли некое хоби? Препорака за филм, серија, книга?

Живеам и работам во еден од најдинамичните градови во светот каде што изборот на активности во слободно време е неверојатен. Претпочитам велосипедизам (ова е и нешто што го препорачувам како начин да се истражи огромен град како Њујорк). Серија - Frontline серијалот на PBS - добитник на неколку награди меѓу кои и Пулицеровата награда за јавен сервис. Препораки за книги имам доста но еве да почнеме со “The Art of Choosing” од мојата драга пријателка и колешка проф. Шина Ијенгар, како и нејзината најнова книга Think Bigger, The Creative Act: A Way of Being од Рик Рубин, Outliers од Малком Гладвел и една класика - As a Man Thinketh oд Џејмс Ален. 

3 јуни 2023 - 09:44