Inteligjenca Artificiale (AI) nuk është më vetëm një mjet teknik – ajo merr vendime që ndikojnë gjithnjë e më shumë në jetët e njerëzve.
Megjithatë, një studim i ri i publikuar në shkurt të vitit 2025 në revistën Transactions on Machine Learning Research ka zbuluar ndryshime kyçe mes mendimit të AI dhe të njerëzve: edhe pse modelet e AI mund të ndjekin modelet e mësuara, ato nuk mendojnë si njerëzit. Me fjalë të tjera, është vërtetuar se AI ka vështirësi të mëdha në diçka që njerëzit e bëjnë mjaft mirë – njohjen e analogjive dhe generalizimin.
Ky është lajm i keq për të gjithë ata që e shohin AI-në si një mundësi për të zëvendësuar gjykimin njerëzor në situata të ndërlikuara, si në drejtësi, mjekësi ose arsim.
Njerëzit e njohin rregullin, AI njeh modelin
Autorët në hyrje theksojnë se modelet e mëdha gjuhësore (LLM) kanë arritur rezultate të mira në testet e ndryshme të arsyetimit, përfshirë ato që testojnë aftësinë për të menduar në mënyrë analoge.
“Megjithatë, ka një diskutim mbi se sa këto modele përdorin mendimin e përgjithshëm abstrakt dhe sa mbështeten në shkurtime ose procese të pasigurta, si ato që varen tepër nga ngjashmëria me të dhënat në të cilat janë trajnuar”, shpjegojnë autorët në hyrje.
Testimi në tri fusha
Në këtë studim të ri, shkencëtarët shqyrtuan qëndrueshmërinë e aftësisë së arsyetimit analog në një klasë të spikatur të modeleve LLM – modelet GPT, në tre fusha: në analogji me seritë e shkronjave, në matricat numerike dhe në analogji narrativash.
Në secilën nga këto fusha, ata testuan njerëzit dhe modelet GPT në variante të detyrave të origjinale me analogji – versione që shqyrtojnë të njëjtat aftësi të arsyetimit abstrakt, por janë të ndryshme nga detyrat në trajnimin e modeleve. Ideja është që një sistem që përdor mendim të qëndrueshëm abstrakt nuk duhet të tregojë një rënie të madhe të efikasitetit në këto variante. Megjithatë, testet treguan të kundërtën.
“Me analogjitë e thjeshta me seritë e shkronjave, ne zbuluam se njerëzit vazhdojnë të arrijnë rezultate të larta në të dyja variantet e testuara, ndërsa suksesi i modeleve GPT bie ndjeshëm. Ky model është më i shprehur kur rritet kompleksiteti i detyrave analoge, pasi edhe njerëzit dhe modelet GPT arrijnë rezultate më të dobëta në detyrat origjinale dhe ato variantet.
Për matrica numerike, hulumtuesit gjetën një model të ngjashëm, por vetëm në një nga dy variantet e testuara. Në fund, testuam qëndrueshmërinë e njerëzve dhe modeleve GPT në analogji narrativi dhe zbuluam se, ndryshe nga njerëzit, modelet GPT janë të ndjeshme ndaj ndikimeve të rendit të përgjigjeve dhe janë më të prirura për të parafrazuar sesa njerëzit”, përfundojnë autorët.
Disa shembuj të testeve
Shembujt nga studimi përfshinin seri të thjeshta shkronjash, për shembull: nëse seria abcd kalon në abce, çfarë do të ishte vazhdimi për serinë ijkl? Shumica e njerëzve do të përgjigjen ijkm – shkronja e fundit është zëvendësuar me shkronjën që pason, kështu që i njëjti parim aplikohet edhe në rastin tjetër. Në këtë detyrë, GPT-4 do të përgjigjej saktë.
Por nëse shembulli është abbcd → abcd, ku hiqet shkronja e përsëritur, dhe pyetja është: ijkkl → ?, njerëzit do të thonë shumë mundësisht ijkl. Megjithatë, GPT-4 shpesh do të gabonte këtu.
Autorët theksojnë se, në analogjitë e thjeshta me seritë e shkronjave, ata zbuluan se njerëzit vazhdojnë të arrijnë rezultate të larta në të dyja variantet e testuara, ndërkohë që suksesi i modeleve GPT bie ndjeshëm.
Ky model ishte më pak i shprehur kur rritej kompleksiteti i detyrave analoge, pasi edhe njerëzit dhe modelet GPT kishin rezultate më të dobëta në detyrat origjinale dhe variantet. Për matricat numerike, shkencëtarët gjetën një model të ngjashëm.
Dallimi mes shembullit dhe kuptimit
“Problemi nuk është tek te dhënat, por në mënyrën se si ato përdoren”, thekson Lewis.
Shumica e AI-ve të sotëm trajnohen me sasi të mëdha të të dhënave. Sa më shumë informacione të kenë, aq më mirë mund të njohin modelet. Por generalizimi – ajo që njerëzit e bëjnë në mënyrë intuitive – kërkon më shumë sesa përsëritjen e modeleve.
Lewis thotë se njerëzit mund të bëjnë abstraktim nga modelet specifike në rregulla të përgjithshme, ndërsa modelet e mëdha gjuhësore nuk e kanë këtë aftësi “ato janë të mira në njohjen dhe lidhjen e modeleve, por jo në generalizimin nga këto modele”.
Problemi i rendit dhe parafrazimit
Studimi gjithashtu tregoi se modelet e AI janë të ndjeshme ndaj asaj që quhet efekti i rendit – përgjigjet e tyre mund të ndryshojnë ndjeshëm në varësi të rendit në të cilin u paraqiten detyrat. Ky efekt tek njerëzit është pothuajse i paeksistueshëm.
Gjithashtu, AI është i prirur të parafrazon – në vend që të përgjigjet qartë në një pyetje, shpesh e riformulon, duke e bërë më të vështirë interpretimin e përgjigjeve dhe vendimeve të tij.
Çfarë do të thotë kjo në praktikë?
Truri i njeriut nuk mëson vetëm nga shembujt; ai e di kur një rregull vlen dhe kur nuk vlen.
Për shembull, kur një gjyqtar shqyrton një precedent në një proces gjyqësor, ai di të aplikojë një vendim të mëparshëm, edhe nëse detajet konkrete të çështjes janë të ndryshme. Kjo kërkon mendim analogjik – aftësinë për të kuptuar se si një rregull mund të aplikohet në një kontekst të ndryshëm.
AI nuk mund ta bëjë këtë me besueshmëri. Studimi tregoi se modelet e AI tregojnë një nivel më të ulët të të ashtuquajturit ‘zero-shot learning’, pra një nivel më të ulët të aftësisë për të nxjerrë një përfundim të saktë pa pasur një shembull të mëparshëm nga e njëjta kategori.
Nëse nuk e njeh dallimin mes të ngjashmes dhe të njëjtës, AI në mjekësi mund të sugjerojë një medikament të gabuar, pasi nuk kupton se një simptomë mund të ketë shkaktarë të ndryshëm në kontekste të ndryshme.
Për shkak të të gjitha këtyre, ekziston një rrezik real që modelet e AI, kur përdoren për analizën e çështjeve ligjore, diagnostikimin në mjekësi ose vlerësimin e rrezikut në financa, të marrin vendime që “në letër” duken të sakta, por në fakt humbasin thelbin në kushte reale. Në këto raste, AI nuk gabon për shkak të mungesës së njohurive, por për shkak të “mendimit” të gabuar.
Çfarë duhet të kenë parasysh ata që punojnë me AI?
Rezultatet e studimit tregojnë se AI nuk duhet të vlerësohet vetëm sipas saktësisë së përgjigjeve, por edhe sipas qëndrueshmërisë, pra sa të qëndrueshme dhe të argumentuara janë ato përgjigje. Dhe kjo kërkon një kuptim të thellë të mënyrës se si modelet e AI arrijnë në përfundime.
Po ashtu, është e nevojshme të kuptohet se modelet nuk mendojnë si njerëzit – dhe se në disa detyra, ndoshta ato kurrë nuk do të mund ta zëvendësojnë gjykimin njerëzor.
“Duhet të ndalojmë së pritur që AI të ‘mendojë’ si njeri. Në vend të kësaj, duhet të mësojmë si ai arrin në përfundime dhe ku është kufiri i tij”, thotë Lewis.
Nëse AI përdoret në një kontekst ku nuanca janë të rëndësishme, mbikëqyrja njerëzore është e domosdoshme.
Përndryshe, rrezikojmë të marrim vendime që janë të sakta në sipërfaqe, por të gabuara në thelb. Prandaj, është e rëndësishme jo vetëm të zhvillohen sisteme më të mira AI, por edhe të ndërtohet një ndërgjegjësim te ata që punojnë me to – që ata të dinë ku teknologjia ndihmon dhe ku duhet të vendosen kufijtë e përdorimit të saj.