Научници дигнаа глас против статистичката значајност

Тројца научници напишаа а 800 потпишаа манифест со кој се бара науката да прeстане да користи едeн од најзлоупотребуваните критериуми во научните истражувања: статистичката (без)значајност.

Веќе со генерации, научни истражувачи предупредуваат дека статистички безначајните резултати не ја потврдуваат нул хипотезата (дека во измерените резултати не постои разлика меѓу групи, ефекти или што и да е тема на истражувањето). Ниту пак дека статистички значајните резултати докажуваат некоја друга хипотеза. Поради вакви базични методолошки „грешки во чекори“, научната литература се има преполнето со предимензионирани тврдења или пак тие знаат да водат кон конфликти меѓу различни студии кои всушност не постојат.

Со други зборови, предолго нечии научни кариери се градеа бркајќи една единствена статистика: п-вредноста (се обележува со Р, статистичката значајност) да е помала од ,05.

Статистичката значајност е толку често неразбрана или пак злоупотребена, што ова научно трио (Армхајн, Гринленд, МекШејн плус 800 потписници) бара целиот концепт да биде напуштен.

Аргументираат дека статистичката (без)начајност пречесто и прелесно се толкува како единствен критериум дали некоја студија докажала нешто или не. Дали таа успеала или не. Според нив, во овој проблем главен виновник не е самата математика туку човековата психологија. Фиокирањето резултати во „статистички значајни“ или „статистички незначајни“ води кон црно-бел пристап во науката.

Одиме со пример:

Да речеме дека истражувач сака да провери дали јадење едно чоколадо на ден има врска со тежината. Ќе најде 100 луѓе, ќе ги измери, на 50 од нив ќе им дава по чоколадо, на другите не. После некое време пак ќе ги измери.

Започнува со нул хипотеза (дека не постои врска) која е своевиден адвокат на ѓаволот. Споредено со судската пракса, оваа хипотеза има иста функција како правниот концепт „невин додека не се докаже спротивното“. Ако обвинителот уверливо го гради случајот (извади крвав нож со отпечатоци од обвинетиот, ДНК резултати, очевидци, историја на насилно однесување), презумпцијата на невиност почнува да се нагризува и во некоја точка, поротата или судскиот совет, без разумен сомнеж констатираат дека обвинетиот не е невин.

Слично и со чоколадово. Ако се утврди голема и постојана тежинска разлика меѓу оние кои јадат и оние кои не јадат чоколадо, „аргументот на ѓаволот“ почнува да изгледа наивно и се отфрла.

Отфрлањето на нултата хипотеза е само индиректен доказ за експерименталната хипотеза. Но, не кажува дали нечиј научен заклучок е точен. И не кажува ништо за тоа како чоколадото има врска со тежината.  И не кажува ништо за тоа дали експериментот бил добро дизајниран, добро контролиран и дали резултатите се „дај ми само од убавите“ (cherry-picked).

Тоа само помага да добиете претстава колку резултатите се ретки. И тоа не резултатите од вашиот експеримент туку колку би биле ретки такви резултати во свет во кој нул хипотезата би била вистинита. П-вредноста служи за да ја квантифицира реткоста.

Истражувачите никогаш не можат комплетно да ја отфрлат нулата (слично како што поротниците самите не се сведоци од прва рака) па затоа одбираат вредност над која се прилично сигурни дека може да ја отфрлат нултата. Во многу дисциплини тоа е помалку од ,05.

Идеално, п-вредност помала од ,05 значи дека ако го изведете експериментот 100 пати - исто претпоставувајќи дека нул хипотезата е точна - ќе добиете такви резултати пет пати. Многумина ова дебело го утнуваат: p< ,05 не значи дека 5% од експерименталните резултати се случајни. Не значи дека сте можеле да утнете помалку од 5%. Ич не значи тоа.

Уште еднаш: п-вредност помала од ,05 значи дека постојат помалку од 5% шанси да добиете такви резултати во свет во кој нул хипотезата е точна. На прва, ова звучи како непотребно дрвење но е критичeн момент. Неразбирањето води кон преголема и незаслужена доверба во п-вредноста. Со вредност од ,05, утката може да биде многу поголема од 5 проценти.

„Ние не бараме забрана за п-вредностите. Ниту пак тврдиме дека таа не може да се користи како критериум за донесување одлуки (на пример дали некој мануфактурен процес ги задоволува критериумите за стандард на квалитетот). Истовремено не заговараме ситуации „сè да пројде“ и тенките докази да станат кредибилни. Само бараме, како и многумина други изминативе децении, да се престане со користење на п-вредноста на конвенционалниот, дихотомен начин - да пресудува дали некој резултат отфрла или подржува некоја научна хипотеза,“ велат авторите на апелот.

Брајан Ресник се согласува дека сето тоа е точно но мисли дека промена на дефиницијата на п-вредностите или нивно комплетно игнорирање нема да го реши проблемот. Вистинскиот проблем не е статистиката туку културата на науката.

Пред две години, Вокс праша 200 научници: „Да можете да смените една работа во денешната наука, која би била таа?

Два одговора се доста описни за горенаведениот проблем.

„Научните институции треба да умеат подобро да го наградуваат неуспехот“

и

„Растргната сум меѓу поставување прашања за кои знам дека ќе го водат кон статистичка значајност и поставување прашања кои навистина се важни.“

Елем, за да добијат работа, на истражувачите им требаат објавени студии. За да се објави студија, таа мора да го задоволи критериумот на статистички значајни резултати. Бркајќи го тој свет грал, науката упаѓа во криза на безбројни реплики, баналности и безначајни помпезности.

******

Мал детал за тоа колку сме ние далеку од овие научни „пицајзлирања“. Некаде во 2017 година објавивме едно писмо на читатели. За битна тема, како овде некогаш се добиваат рецензии на докторати. Писмото, се разбира, потпишано и аргументирано, за нешта кои авторот ги смета за суштински и недозволиви на тоа ниво на научна верификација.

Бидејќи беше спомнато конкретно дело, конкретна рецензија, конкретен УКИМ, беше очекувано да се добие (бар мала) лавина реакција од прозваните. Знаете како тие го надминаа овој скандал во најава? Со штама. Со мукла. Реакции нула, од никого. Нека лаат, ќе пројде. И пројде (гледате, речиси пројде).

Муабетот ни е, импулсот на овдешната „научна заедница“ не е само статистички безначен.

26 март 2019 - 11:19