top of page

Legendas Automáticas

O YouTube disponibiliza desde 2009 um sistema de legendas automáticas que torna os vídeos mais acessíveis a deficientes auditivos e a pessoas que não entendem a língua que se está a falar num determinado vídeo [25].

​

É utilizado para este fim um sistema chamado Automatic Speech Recognition (ASR) que tipicamente oferece uma eficiência de 60-70%, que significa que uma em cada três palavras está errada. Este resultado pode ser melhorado com uma qualidade de áudio elevada e conteúdo simples, mas piora na existência de sotaques fortes e/ou barulhos de fundo [26].

​

O ASR tem como objetivo converter um sinal sonoro de voz numa mensagem de texto que contém as palavras expressadas independentemente do orador, ambiente e/ou do dispositivo usado para a gravação da voz [27].

Inicialmente, o ASR cria um sinal de variação temporal correspondente à voz com os sons de background. Posteriormente, é retirado o sinal de voz através do bloco Front-End e colocado num decoder que converte esse sinal num vector de palavras obtidas com a ajuda de uma base de dados que contém as características de uma dada língua [28].

​

Prevê-se para o YouTube uma eficiência cada vez maior para este processo, visto que surgem cada vez mais e melhores modelos de detecção de discurso, bem como o facto de se permitir ao utilizador a criação das suas próprias legendas [29].

bottom of page