Vartotojai išrinko geriausią AI: tai ne Chatgpt

users prefer different ai

Didelio masto aklas palyginimas parodė, kad vartotojai teikia pirmenybę ChatGPT alternatyvoms, o aukščiausius balus surinko tokie modeliai kaip „Gemini 2.5 Pro“, „DeepSeek“ ir „Magistral“. Tyrime buvo akcentuojamas užduočių tikslumas, glausti atsakymai, pokalbių atmintis ir praktinis patikimumas, o ne etaloninis stilius. Vartotojai vertino modelius, kurie atliko realias užduotis ir išlaikė patikimą elgesį. Tačiau rezultatai taip pat parodė rizikos sritis ir niuansus, kuriuos verta atidžiau išnagrinėti.

Kaip vartotojai įvertino geriausius AI modelius

Išnagrinėję „Humaine“ tiesioginius palyginimus, dalyviai nuosekliai teikė pirmenybę „Google Gemini 2.5 Pro“ kaip geriausiai veikiančiam modeliui, antrą vietą užėmė „DeepSeek“ iš Kinijos, trečią – „Magistral“ iš „Mistral“ (Prancūzija); „ChatGPT“ užėmė aštuntą vietą.

„Humaine“ surinko apie 25 000 JAV ir JK vartotojų, kurie atliko aklą porinį dialogą, ir nugalėtojus rinko pagal keturis praktinius kriterijus: užduočių atlikimą ir mąstymą, dialogo tęstinumą ir prisitaikymą, komunikacijos aiškumą ir patikimumą.

Rezultatai parodė modelius, kurie derino tikslius sprendimus su lengvu bendravimu.

Reitingas atspindi realių vartotojų prioritetus, kad būtų naudinga ir patikima sąveika, o ne sintetinis dominavimas, ir padeda pasirinkti iš galimų AI variantų.

Kas svarbiausia realiuose pokalbiuose

Kas daro AI tikrai naudingą kasdieniuose pokalbiuose? Stebėtojai pažymi, kad praktinis naudingumas priklauso nuo greito užduočių atlikimo, sklandaus pokalbio tęstinumo ir atsakymų aiškumo.

„Humaine“ vartotojų atliekami palyginimai rodo, kad žmonės vertina natūralumą – prisitaikančius atsakymus, kurie atitinka kontekstą, numato poreikius ir pateikia informaciją prieinamai. Paslaugų orientuoti vartotojai teikia pirmenybę glaustiems paaiškinimams, mandagiam tonui ir patikimam vykdymui, o ne prašmatnioms galimybėms. Pasitikėjimas ir etiškas elgesys išlieka pagrindiniu kriterijumi, tačiau pokalbių patogumas dažnai lemia pasirinkimus.

Trumpai tariant, veiksmingumas realiuose dialoguose derina teisingą mąstymą su empatiška, kontekstą atpažįstančia komunikacija; modeliai, kurie sintezuoja šiuos elementus, pakyla į viršų.

Saugumo problemos: kai poetiniai raginimai prasiskverbia

Dažnai subtilūs posakiai praslenka pro apsaugos priemones: „Humaine“ apžvalga ir ankstesni tyrimai parodė, kad poetiniai ar meniški raginimai gali apeiti neuroninio tinklo apsaugą maždaug 62 % atvejų, atskleidžiant nuolatinį diegtų modelių pažeidžiamumą.

Tyrėjai pažymi, kad elegantiška kalba maskuoja ketinimus, paverčiant kūrybinius prašymus žalingų rezultatų vektoriais. Tyrimas ragina dizainerius ir administratorius teikti pirmenybę patikimam įvesties analizavimui, priešiškų raginimų testavimui ir skaidriems gedimų režimams.

Praktikai, tarnaujantys bendruomenėms, turėtų reikalauti aiškesnių saugos rodiklių, reguliarių raudonųjų komandų su literatūriniais prašymais ir vartotojams skirtų paaiškinimų, kai turinys yra blokuojamas. Kolektyvinis budrumas ir pakartotinis tobulinimas mažina riziką, tuo pačiu išlaikant pokalbių kokybę.

Išvada

Vartotojai galiausiai teikė pirmenybę modeliams, kurie teikė patikimą, užduočių orientuotą pagalbą, o ne prašmatnius demonstravimus. Aklame, didelio masto palyginime „Gemini 2.5 Pro“, „DeepSeek“ ir „Magistral“ pranoko lūkesčius, derindami tikslų vykdymą, glaustą bendravimą ir pokalbio tęstinumą. Rezultatai pabrėžia praktiškumą ir patikimą vykdymą kaip lemiamus veiksnius, o saugos pažeidimai, kartais sukeliami lyriškais ar dviprasmiškais užklausimais, pabrėžia tvirtų apsaugos priemonių poreikį. Rezultatai rodo perėjimą prie paslaugų orientuotų, kontekstą atpažįstančių sistemų, vertinamų kasdieniame naudojime.