Истражување објавено во Nature Machine Intelligence открива ограничувања на LLM моделите во препознавање лажни верувања и нивната примена во чувствителни области како медицина и право.
Големите јазични модели, како GPT-4o и DeepSeek, имаат тешкотии при разликување верувања од факти, предупредуваат истражувачите во списанието Nature Machine Intelligence. Сеопфатна анализа на 24 модели со повеќе од 13.000 прашања покажала дека поновите LLM-ови се прилично точни во оценување на вистинитоста на фактичките тврдења (околу 91%), додека постарите модели се помалку прецизни. Сепак, моделите многу потешко препознаваат кога корисникот изнесува лажно лично верување („Верувам дека…“). На пример, новиот GPT-4o и сличните модели биле 34,3% помалку склони да потврдат неточно верување во однос на точното, додека постарите модели (пред GPT-4o, објавени пред мај 2024) биле уште понепостојани.

Истражувачите забележуваат дека LLM-овите често автоматски го „исправуваат“ корисникот со факти, што може да ги загрози медицинските третмани или донесувањето одлуки во правото и науката. При препознавање верувања во трето лице („Марија верува дека…“), точноста кај поновите модели речиси не се менува, додека кај постарите значително опаѓа.
Ширење на дезинформации
Овие наоди ја нагласуваат потребата од внимателна употреба на резултатите од LLM-овите при донесување важни одлуки во области како медицина, право и наука, особено кога верувањата или мислењата не се усогласени со фактите. За специјалистите за ментално здравје, на пример, препознавањето на лажно верување кај пациент може да биде клучно за дијагноза и третман, истакнуваат истражувачите од Станфорд, Дјук и други институции.

Авторите заклучуваат дека LLM-овите мора да бидат способни да ги разликуваат нијансите помеѓу факти и верувања — и дали тие се точни или неточни — за да одговорат ефикасно на корисничките прашања и да спречат ширење дезинформации.

