Невронна мрежа „чува” какво говорят хората „на себе си”

Невронните мрежи са способни да чуят дори „нечуваемата” реч на човека(снимка: arxiv.org/University of California, Berkeley)   27 Ноември, 15:09     0  

Технологията ще позволи разговори по телефон без издаване на звук

Въпреки че, когато говорим на „себе си”, не изричаме и не издаваме никакви звуци, мозъкът все пак принуждава мускулите на гласовия тракт да се движат, макар и много по-малко, отколкото при „нормална” реч – този процес се нарича субвокализация. Инженерите могат да разчитат мускулните контракции по различни начини – главно с помощта на електромиография (EMI), която записва електрическата активност на мускулите с помощта на електроди, поставени на врата и лицето.

Съществуващите интерфейси за разпознаване на субвокализации могат да преобразуват мълчалива реч само в текст, но учените от Калифорнийския университет в Бъркли са алгоритъм, който е способен да „озвучава” мускулни контракции. Той е обучен на три вида данни – записи на звукова реч и мускулна активност по време на звукова и нечуваема реч.

Алгоритъмът отчита три сигнала – две електромиограми и звукова реч. На първия етап той намира оптимално съответствие между два сигнала – звукова и нечуваема реч, а на втория, използвайки получените данни, създава аудиозапис на реч от електромиограма, тоест нечуваема реч от аудиозапис на звукова реч. Такъв алгоритъм е необходим за , която прави същото, като приема не три вида сигнали като вход, а само един – електромиограма на нечуваема реч.

Учените са използвали невронна мрежа с краткосрочна памет, като получените данни от нея са предавани на невронна мрежа , която ги декодира в аудио запис на човешки глас. За обучение е използван 20 часа запис на звукова и нечуваема реч, представен под формата на три вида данни. След обучението разработчиците проверявали разбираемостта на .

Като метрика учените са използвали стандартната вероятност за грешка – сумата от променени, липсващи и допълнителни думи, разделена на общата дължина на текста. За прости фрази като дати и други числа вероятността за грешка на пълноценна невронна мрежа е 3,6, а за такава, която се обучава само в звукова реч, е 88,8. За сложни фрази като откъси от книги разликата не е толкова голяма: 74,8 до 95,1 при проверка от човек и 68 до 91,2 при проверка от системата за разпознаване на реч .

Източник: technews.bg

Технологии  
подобни  


от седмицата

видео

Нова машина ликвидира дупки на пътя за минути


Photo Smart Vratsa
последни

вицове

Журналист интервюира столетник от едно родопско село: - Ти дядо, пушиш ли, пиеш ли? - И пуша синко, и пия, и любов правя, че то иначе от тоя чист въздух умиране няма...

още вицове

©2015-2021 Vratsa Guide.