KILAS KLATEN – Meta telah memperkenalkan model AI baru yang disebut Voicebox yang dapat menghasilkan ucapan dalam berbagai bahasa dan dialek, dan bertindak 'seperti penghapus untuk pengeditan audio' untuk membersihkan rekaman yang mungkin dirusak oleh kebisingan latar belakang atau kesalahan berbicara.
Perusahaan ini telah mencurahkan segalanya ke dalam AI, dengan rencana untuk mengintegrasikan teknologi tersebut ke seluruh ekosistem aplikasi sosialnya. Pada bulan Mei, Meta membagikan demonstrasi model AI yang disebut ImageBind yang dapat menghasilkan hasil dengan menggunakan berbagai jenis data sekaligus, seperti audio, gambar, dan teks.
Voicebox adalah model AI generatif untuk berbicara. Dalam sebuah posting blog, Meta menunjukkan bagaimana ia dapat mengubah perintah teks menjadi audio yang diucapkan dalam berbagai suara dan gaya berbicara.
Baca Juga: Meta Berencana Kembangkan Sosmed Baru Instagram Versi Twitter
Menurut perusahaan, ia dapat diberi sampel audio pendek dan mencocokkan suara tersebut dengan hasilnya. Saat ini Meta mampu membaca teks dalam enam bahasa, Inggris, Prancis, Jerman, Spanyol, Polandia, dan Portugis, dan dapat mengambil perintah dari satu bahasa dan mengucapkannya dengan keras dalam bahasa lain. Voicebox masih dalam tahap penelitian.
Dalam salah satu contoh kemampuan pengeditan audionya, Meta menggunakan Voicebox untuk mengedit suara gonggongan anjing dari sampel ucapan yang direkam. Alat ini tidak hanya menghilangkan kebisingan latar belakang, tetapi juga dapat membuat ulang komponen ucapan yang terpengaruh untuk hasil yang sempurna.
Jika seseorang tersandung pada kata-kata mereka dalam sebuah rekaman, Voicebox dapat digunakan untuk menukar versi yang telah dikoreksi tanpa harus merekam ulang. Meta mengatakan bahwa alat ini dapat menirukan gaya bicara seseorang hanya dengan menggunakan audio referensi selama dua detik.