Síntesis de voz – Techinfo

Definición: ¿Qué significa la síntesis de voz?

La síntesis de voz es una simulación artificial del habla humana mediante una computadora u otro dispositivo. La contraparte del reconocimiento de voz, la síntesis de voz, se utiliza principalmente para traducir información de texto en información de audio y en aplicaciones como servicios habilitados para voz y aplicaciones móviles. Aparte de esto, también se utiliza en tecnología de asistencia para ayudar a las personas con discapacidad visual a leer contenido de texto.

Techinfo explica la síntesis del habla

El VODER de Homer Dudley, que se basó en el codificador de voz de Bell Laboratories, se considera el primer sintetizador de voz completamente funcional. La computadora utilizada en la síntesis de voz se conoce como sintetizador de voz o computadora de voz. La calidad de la computadora del habla a menudo se juzga por su similitud con la voz humana. La mayoría de los sistemas operativos de computadoras han incorporado sintetizadores de voz desde principios de la década de 1990. El habla sintetizada generalmente se genera con la ayuda de la concatenación de fragmentos de voz grabada, que se encuentran en una base de datos.

La etapa inicial en la síntesis de voz es el preprocesamiento, que elimina la ambigüedad que rodea la forma en que se debe leer la palabra específica y que también incluye el manejo de homógrafos. En la siguiente etapa de la síntesis de voz, la computadora usa la ayuda de fonemas para convertir el texto en una secuencia de sonidos. La última etapa implica el uso de grabaciones humanas o técnicas básicas de generación de sonido para imitar el mecanismo de la voz humana y leer todo el texto. Una de las ramas populares de la síntesis de voz es la síntesis de voz audiovisual o síntesis de voz multimodal que hace uso de una cara animada estrechamente sincronizada para complementar la voz sintetizada. La síntesis de voz multimodal también incorpora características adicionales, como señales no verbales del habla, para ayudar a comunicar las palabras del usuario con mayor precisión. Muchos sistemas de síntesis de voz permiten a los usuarios elegir el tipo de voz, como voz masculina o femenina.

La mayoría de los sistemas de síntesis de voz son capaces de leer textos y emitirlos de una manera muy inteligente, aunque la voz a veces puede ser aburrida. Sin embargo, la síntesis del habla aún no ha desarrollado la capacidad de imitar por completo el amplio espectro de entonaciones y cadencias humanas.