Google Gemini 2.0 донесува револуционерни AI агенти со можности за повеќејазична комуникација, генерирање слики и интеграција со Google алатки
Google денес го претстави Gemini 2.0, новата верзија на својот напреден AI систем, што претставува чекор кон автономни агенти способни за самостојно извршување сложени задачи. Новиот модел овозможува генерирање слики, работа со повеќе јазици и интеграција со Google алатки како што се пребарување или извршување на програмски код. Со овој потег, Google директно влегува во конкуренција со гиганти како OpenAI и Anthropic, во сè пожестоката трка за водство во светот на вештачката интелигенција.
Gemini 2.0 пристигнува околу една година по првата верзија, во клучен момент за развојот на AI технологијата. За разлика од претходните „реактивни“ модели кои само одговараат на барања, новите „агентни“ системи разбираат нијансиран контекст, планираат повеќекратни чекори и можат да преземаат надгледувани активности во име на корисникот.
Подобрени перформанси и нови можности
На неодамнешната прес-конференција, Тулси Доши, директор на производи за Gemini, во живо демонстрираше генерирање слики во реално време и разговор на повеќе јазици. „Gemini 2.0 носи подобрени перформанси, нативно генерирање слики, повеќејазичен аудио-пренос и интелигентно користење алатки,“ изјави Доши. „Моделот може да пристапи до Google производи како што е пребарувањето и дури да извршува код директно.“
Првата верзија, „Gemini 2.0 Flash,“ е експериментално издание за кое Google тврди дека работи двапати побрзо од својот претходник, притоа нудејќи функционалности на посилни модели. Ова е значајно подобрување, бидејќи претходно побрзото работење често значеше компромиси во функционалноста.
Три прототипа за иднината на AI агентите
Клучниот чекор е претставувањето на три прототипа на AI агенти базирани на Gemini 2.0. „Project Astra“ е универзален AI асистент способен за сложени, повеќефазни разговори, преминување помеѓу јазици и користење контекстуално паметење. За време на демонстрацијата, Бибо Шу, менаџер на производи во Google DeepMind, покажа како Astra може да запомни до 10 минути од претходните интеракции, што резултира со поприлагодено и поприродно искуство. Astra пристапуваше до Google Пребарување и Мапи во реално време, подигнувајќи го нивото на интеграција на повисоко ниво.
За деловни корисници и девелопери, претставени беа „Project Mariner“ и „Jules,“ специјализирани AI агенти наменети за автоматизација на сложени технички задачи. Mariner, тестиран како екстензија за Chrome, постигна успешност од 83,5% на WebVoyager бенчмаркот — значителен скок во однос на претходните обиди за автономна навигација на интернет.
Инфраструктура: Trillium TPU и масовно скалирање
Зад овие способности стои Trillium, шестата генерација на Tensor Processing Unit (TPU) чипови, сега достапни за cloud корисници. Google инвестираше огромни средства во оваа инфраструктура, распределувајќи над 100.000 Trillium чипови во една мрежна структура. Според Логан Килпатрик, менаџер на производи во тимот на Gemini API, користењето на „flash“ модовите се зголеми за 900%, а милиони девелопери веќе експериментираат со моделите на Gemini.
Безбедност, одговорност и идни насоки
Автономните системи од овој тип носат нови предизвици. Google нагласува посветеност на одговорен развој, започнувајќи со постепен пристап — од ограничено пуштање за девелопери и „доверливи корисници“ до пошироко воведување. Новите AI агенти ќе можат да преземаат активности во реалниот свет, што отвора прашања за етиката, безбедноста и можните злоупотреби. „Веруваме дека единствениот начин да изградиме одговорен AI е со пристап од самиот почеток,“ изјави Шрешта Басу Малик, менаџер на производи за Gemini API. „Ќе продолжиме да ја даваме приоритет безбедноста и одговорноста додека ги унапредуваме нашите модели и агенти.“
Во контекст на интензивна конкуренција, каде што OpenAI и Microsoft веќе направија големи чекори, потегот на Google да се насочи кон „агентни“ системи наместо само на LLM модели означува стратешки пресврт, пишува VentureBeat.
Ова е можеби најзначајниот чекор од појавата на ChatGPT, кој ја дефинираше ерата на генеративната AI. Со Gemini 2.0, Google ги поставува темелите за следната фаза — фаза во која AI повеќе не е само паметен соговорник, туку динамичен извршител, способен да мисли, планира и делува.