Мета продолжува да развива производи со технологии, вклучувајќи ја и вештачката интелигенција (AI), а нејзиното најново решение е Voicebox. Генеративен модел на текст во говор заснован на даден текст.
Voicebox е обучен за повеќе од 50.000 часа нефилтриран звук, користејќи говорни снимки и транскрипти од аудио книги од јавен домен од Meta на англиски, француски, шпански, германски, полски и португалски.
Ова овозможува да се постигне говор со поприроден звук, без оглед на јазикот што се зборува. Дополнително, содржината генерирана од компјутер има само 1% грешки при деградација во споредба со до 70% во постоечките TTS модели.
Првично, услугата беше обучена да предвидува говорни сегменти врз основа на оние околу нив, како и од транскриптот на пасусот. Моделот потоа може да ги примени овие вештини на целата содржина.
Voicebox може активно да уредува звучни клипови, да отстранува шум од говорот и да ги замени лошо изговорените зборови. Решението се базира на методот на учење наречен Flow Matching, кој постигнува високи нивоа на точност.
Сепак, Meta моментно не планира да го објави своето ново решение за крајните корисници поради потенцијалот за злоупотреба. Сепак, од компанијата велат дека се надеваат дека технологијата во иднина ќе може да се применува и во областа на здравството.