ШТА СЕ ДЕШАВА АКО СИ ГРУБ ПРЕМА „CHET-GPT“-У

03.11.2025 Скопље

Бити кратак или груб према вештачкој интелигенцији може учинити новије моделе прецизнијим, сугерише ново истраживање, доводећи у питање претходне налазе да је љубазност према вештачкој интелигенцији увек најбоља пракса.

Научници су открили да четботови могу дати тачније одговоре када је корисник груб, упркос претходним упозорењима о потенцијалној штетности употребе увреда. У новој студији, објављеној 6. октобра на Arxiv серверу, истраживачи су желели да виде да ли тон корисника, од веома љубазног до веома грубог, утиче на то колико добро систем вештачке интелигенције обавља задатак.

Да би тестирали тачност зависну од тона, истраживачи су креирали 50 основних питања са вишеструким избором, а затим их модификовали додавањем префикса који су их категорисали у групе: веома љубазно, љубазно, неутрално, грубо и веома грубо. Питања су покривала теме као што су математика, историја и наука.

Свако питање је имало четири могућа одговора, један тачан. Истраживачи су унели резултујућа питања у Chat-GPT-4o, један од најнапреднијих језичких модела великих размера. Аутори напомињу да су прелиминарни резултати показали да груб тон даје боље резултате од љубазног. Занимљиво је да се тачност постепено повећавала са сваким кораком удаљавања од најљубазнијег тона.

Да би променили тон, тим је користио различите језичке префиксе; неутрална варијанта није имала префикс, а питање је дато само од себе. На пример, за веома љубазне коментаре, реченице попут: „Могу ли да те замолим за помоћ око овог питања?“ или „Да ли би био љубазан да решиш ово питање?“ На супротном крају, за веома грубе префиксе користили су изјаве попут „Хеј, човече, реши ово!“ или „Знам да ниси паметан, али покушај да решиш ово.“

Истраживачи упозоравају да, упркос научном интересу, не подржавају увођење непријатељских или токсичних интерфејса у апликације из стварног света. Како напомињу: коришћење увреда у интеракцијама са вештачком интелигенцијом може негативно утицати на корисничко искуство, приступачност и инклузивност и допринети штетним друштвеним нормама за комуникацију.

Аутори признају неколико ограничења: величина узорка од 250 питања је релативно мала, а експеримент је спроведен само на једном моделу, тако да се резултати не могу у потпуности генерализовати. Такође, мерење учинка само путем питања са вишеструким избором обухвата само једну димензију.

С обзиром на ово, тим планира да прошири истраживање на друге моделе, укључујући Антропик и будуће верзије Опен АИ, као што је Chat-GPT o3.