Нова студија, во коавторство со истражувачи на Apple, покажува како метод заснован на контролни листи, наречен RLCF, значително ги унапредува перформансите на јазичните модели, правејќи ги понадежни во извршување на сложени задачи.
Во новата студија објавена од Apple истражувачите, голем јазичен модел со отворен код (LLM) покажал значителни подобрувања откако му било кажано да ја провери сопствената работа со едноставен, но моќен трик за продуктивност. Како што пренесува 9to5Mac, клучот е во користењето на контролни листи (checklist).
Откако голем јазичен модел ќе се истренира, неговиот квалитет обично дополнително се подобрува преку фаза позната како учење со поткрепување врз основа на човечки повратни информации (RLHF). Во овој процес, човечки оценувачи даваат „палец горе“ или „палец долу“ на одговорите на моделот, наградувајќи или казнувајќи го. Со тек на време, моделот учи кои одговори носат позитивни реакции и неговата вкупна корисност расте. Овој процес е дел од поширокото поле „усогласување“ (alignment), чија цел е да се осигура дека AI моделите се однесуваат на корисен и безбеден начин.
Сепак, истражувачите на Apple во студијата насловена Checklists Are Better Than Reward Models For Aligning Language Models предлагаат нов, поефикасен метод: учење со поткрепување врз основа на повратни информации од контролни листи (RLCF). Наместо едноставен сигнал „ми се допаѓа / не ми се допаѓа“, RLCF ги оценува одговорите на моделот на скала од 0 до 100 за секоја ставка на однапред дефинирана листа.

„Го споредивме RLCF со други методи на усогласување применети врз моќен модел за следење инструкции (Qwen2.5-7B-Instruct) на пет широко проучувани бенчмаркови – RLCF е единствениот метод кој ги подобри перформансите на секој бенчмарк, вклучувајќи зголемување на стапката на задоволство за 4 процентни поени на FollowBench, зголемување од 6 поени на InFoBench и раст на стапката на победи за 3 процентни поени на Arena-Hard“, објаснуваат истражувачите.
Интересен е и начинот на кој овие листи се создаваат. Истражувачите, користејќи помоќен „учителски“ AI модел (Qwen2.5-72B-Instruct), автоматски генерирале листи за 130 илјади различни инструкции, создавајќи нов сет на податоци наречен WildChecklists. За секоја корисничка инструкција, системот генерира кратка листа на конкретни да/не барања (пр. „Дали одговорот е преведен на шпански?“). Потоа, „учителскиот“ модел ги оценува одговорите на „ученичкиот“ модел според секоја ставка на листата, а тие пондерирани оценки стануваат сигнал за понатамошно финo прилагодување.
Истражувачите нагласуваат дека нивната метода е насочена кон „сложено следење инструкции“ и можеби не е идеална за сите други случаи на употреба. Тие исто така истакнуваат дека RLCF го подобрува следењето на инструкциите, но не е дизајниран за безбедносно усогласување. Едно од ограничувањата е тоа што се потпира на помоќен модел кој делува како „судија“ за прилагодување на помал модел.
Сепак, студијата нуди едноставен и иновативен начин за подобрување на доверливоста на AI моделите, што е клучно за иднината на AI асистентите кои ќе станат стандардно средство за интеракција со нашите уреди. Ова станува уште поважно со оглед на тоа што асистентите сè повеќе ќе добиваат агентски способности, каде прецизното следење на инструкциите и усогласеноста ќе бидат од пресудно значење.

