Моделот за вештачка интелигенција на Anthropic, Claude сега може да извршува сложени задачи на компјутерите, сигнализирајќи нова ера на AI алатки за автоматизација и продуктивност
Anthropic, растечкиот конкурент на OpenAI, го подигна развојот на вештачката интелигенција на ново ниво со тоа што го научи својот модел, Claude, да извршува задачи како што се пребарување на интернет, користење апликации и управување со внесување текст преку компјутерски глушец и тастатура. Овој развој сугерира дека вештачката интелигенција би можела да преземе некои од нашите секојдневни дигитални задачи.
Извршување сложени задачи на компјутер
„Влегуваме во нова ера каде моделот може да ги користи сите алатки што вие како личност ги користите за извршување на задачите“, рече Џаред Каплан, главен научен директор на Антропик и вонреден професор на Универзитетот Џон Хопкинс. Во демонстрациja за порталот WIRED, на Claude му беше наложено да планира да го гледа изгрејсонцето на мостот Голден Гејт во Сан Франциско. Вештачката интелигенција го отвори Google Chrome, ги истражуваше идеалните времиња на гледање и го забележа тој настан во календарот. Сепак, тој не предложи насоки.
Во второто демо, Claude имаше задача да создаде едноставна веб-страница. Користејќи барање за текст, AI генерираше код, го отвори Visual Studio Code и започна веб-сервер за тестирање на страницата, што резултираше со одредишна страница во ретро стил. Кога побарале да го реши проблемот, Claude ја идентификувал грешката и ја исправил.
Импресивни можности, но предизвиците остануваат
Мајк Кригер, главен директор за производи на Антропик, предвидува дека AI агентите како Claude ќе ги намалат задачите што се повторуваат и ќе ослободат време за покреативна работа. Што би направиле кога би можеле да се ослободите од безброј часови копирање и лепење или што и да правите? Ќе одев повеќе да свирам гитара, рече Кригер. Можностите на агентите денес се напојуваат со Claude 3.5 Sonnet, најнапредниот јазичен модел на Anthropic. Достапен е и надграден, помал модел, Claude 3.5 Haiku.
Додека демонстрациите како овие се импресивни, доверливоста во реалниот свет останува предизвик. Тековните AI модели, како што е Клод, можат да одржуваат разговори и да вршат пресметковни задачи, но сепак можат да прават скапи или досадни грешки. Овие AI агенти комуницираат со екрани, тастатури и софтверски интерфејси на ниско ниво за извршување на задачите. Anthropic тврди дека Claude ги надминува конкурентите во однос на реперите како што се SWE-bench, кој ја тестира способноста за кодирање и OSWorld, кој ја мери употребата на компјутер. Сепак, овие резултати допрва треба да бидат независно потврдени, пишува WIRED.
AI има проблем со долгорочно планирање и грешки
Клод постигна стапка на успех од 14,9 проценти на OSWorld, пониска од луѓето кои постигнаа 75 проценти, но повисока од GPT-4 на OpenAI, кој постигна само 7,7 проценти. Canva и Replit веќе ги тестираат можностите на Claude – Canva за автоматизирање на дизајнерските задачи и Replit за кодирање. Други рани корисници ги вклучуваат The Browser Company, Asana и Notion.
Офир Прес, постдокторски соработник на Универзитетот Принстон во САД и ко-креатор SWE-bench, рече дека AI агентите често имаат проблеми со долгорочно планирање и враќање на грешки. За да докажеме дека се корисни, треба да постигнеме силни перформанси на тешки и реални одредници, рече Прес, повикувајќи се на примери како што се планирање и резервирање цели патувања.
Збор на претпазливост
Сепак, Каплан истакнува дека Claude има некои вештини за решавање проблеми. Во еден случај, Клод ја ревидирал својата команда за решавање на грешка во терминалот при стартување на веб-серверот. Исто така, овозможи скокачки прозорци кога се заглавени додека прелистувате на интернет.
Неколку технолошки компании ја водат трката за развој на AI агенти. Microsoft, кој инвестираше над 13 милијарди долари во OpenAI, тестира агенти кои можат да ги контролираат компјутерите со Windows. Амазон, клучен поддржувач на Anthropic, истражува како агентите можат да им помогнат на клиентите да изберат производи и да купуваат. Антропик, од друга страна, наметна одредени ограничувања за тоа што може да прави Claude, како што е ограничување на неговата способност да користи кредитна картичка на корисникот за да купува работи.
И покрај овие возбудливи можности, Соња Хуанг, партнер во фирмата фокусирана на вештачка интелигенција Sequoia, предупредува дека многу компании едноставно ги ребрендираат алатките за вештачка интелигенција како агенти. Таа објасни за WIRED дека технологијата моментално најдобро функционира кога се применува во тесни домени, како што е работата за кодирање.