Microsoft je "ispod radara" predstavio novi AI koji će kod mnogih izazvati itekakvu jezu

U ne tako dalekoj budućnosti ljude bi mogli u određenim aspektima svakodnevice vrlo uvjerljivo zamijeniti sofisticirani strojevi i thnologija, a Microsoftovi znanstvenici su čini se malo ubrzali približavanjee takve budućnosti.

U njihovom nedavnom istraživanju, koje je kreativno obskurno nazvano "Jezični modeli neuralnih kodeka su sintetizatori teksta bez uvježbavanja", predstavlja se jezični model neuralnog kodeka, nazvan VALL-E.

Tekst se nastavlja nakon oglasa

S jedne strane, nameće se pitanje postoji li novi, brži način da računalo zapiše vaše izgovorene riječi, a s druge strane, tehnologija nosi naziv sličan slatkom malom robotu iz popularnog filma, prenosi ZIMO.

In medias res

Istraživanje međutim koristi riječi, fraze i akronime koji nisu poznati mnogim laičkim modelima ljudskog jezika. No dijelovi tog istraživanja daju naslutiti koje su mogućnosti te tehnologije i tu stvari poprimaju i pomalo jeziv ton.

VALL-E ističe kontekstualne mogućnosti učenja i može se koristiti za sintetiziranje visokokvalitetnog personaliziranog govora, sa samo 3 sekunde učitane snimke neviđenog govornika, kao akustične upute, pojašnjeno je u navedenom Microsoftovom istraživanju.

Drugim riječima, Microsoftu sad treba svega 3 sekunde nečijeg govora, kako bi njihova VALL-E tehnologija odglumila duže rečenice i možda velike govore koje zvuče prilično slično govoru izvornog govornika.

Pomoć iz Mete

Kako im to uspjeva? Pa tako što VALL-E koristi audio knjižnicu koju je sastavljala Meta. Riječ je o audio knjižnici LibriLight, koja je zapravo spremište ukupno 60.000 sati razgovora 7000 ljudi.

Dojam? Zastrašujuće!

Novinar ZDNeta Chris Matyszczyk poslušao je što VALL-E može napraviti. Slušao je muškarca kako govori 3 sekunde. Zatim je poslušao 8 sekundi kako je njegova VALL-E verzija bila ponukana da kaže: Potom su se oprezno kretali oko kolibe pipajući prije i oko njih kako bi pronašli nešto što bi pokazalo da je Warrenton ispunio svoju misiju. Na koncu je zapanjen zaključio da je razliku nemoguće primijetiti, uz opasku da je većina tih govora zvučala kao vrlo loši isječci književnosti 18. stoljeća, prenosi ZIMO.

Neke su verzije govora VALL-E-ja bile mrvicu sumnjivije od drugih. Dikcija nije bila dobra. Zvučalo je pokrpano. Ukupni je učinak, međutim, izrazito zastrašujući, piše novinar ZDNeta.

Nedostaci, rizici i nonšalantnost rješavanja (samokreiranih) problema

Ipak, Microsoftovi znanstvenici su, čini se, i sami svjesni potencijalnih velikih nedostataka i rizika koji se javljaju uz takvu tehnologiju.

Budući da VALL-E može sintetizirati govor koji održava identitet govornika, može nositi potencijalne rizike u zlouporabi modela, kao što je lažiranje identifikacije glasa ili oponašanje određenog govornika, kažu autori navedenog istraživanja.

Ipak, nude i rješenje - izgradnju sustava detekcije. No, pravo pitanje na koncu zapravo glasi, zašto onda uopće i istraživati tu thnologiju?

Odgovor je jednostavniji nego što biste mogli pomisliti, a često glasi - zato jer mogu.

Moja reakcija na članak je...

Ljubav

Haha

Nice

What?

Laž

Sad

Mad