Спочатку NotebookLlama створює стенограму з файлу — наприклад, PDF-файлу новини або публікації в блозі. Потім додає «більше драматизму» та пауз для більшого реалізму. переривань, перш ніж подати транскрипт у відкриті моделі перетворення тексту в мовлення. Далі текст передається у відкриті моделі синтезу мовлення, щоб отримати звукову версію, пише TechCrunch.

Результати звучать не так добре, як у NotebookLM, кажуть користувачі. Голоси мають дуже очевидну роботизовану якість і тенденцію перекрикувати один одного в незрозумілих місцях.
Але дослідники Meta, які стоять за проєктом, кажуть, що якість можна покращити за допомогою сильніших моделей.
«Модель перетворення тексту в мову є обмеженням того, наскільки природно це звучатиме», — пишуть дослідники Meta на сторінці NotebookLlama на GitHub. «Інший підхід до написання подкасту полягає в тому, що два агенти обговорюють тему, яка їх цікавить, і пишуть план подкасту. Зараз ми використовуємо єдину модель для написання плану подкасту».