OpenAI añade una extensión generadora de voz
4 abril, 2024
OpenAI está refinando su tecnología Voice Engine para replicar voces humanas. Esta mejora de la API de conversión de texto a voz existente de la empresa ha estado en desarrollo durante aproximadamente dos años y permite a los usuarios cargar una muestra de voz de 15 segundos para generar una réplica de esa voz.
El desarrollo de esta herramienta comenzó a fines de 2022 y se utilizó inicialmente para generar la voz de su API de texto a voz, ChatGPT Voice y Read Aloud. Más tarde, se aplicó para crear la voz de ChatGPT en las aplicaciones móviles.
Durante 2023, un grupo selecto ha estado utilizando la herramienta para explorar posibles casos de uso, y ahora han compartido algunos resultados, aunque aún no han anunciado la fecha de lanzamiento al público.
En el blog de OpenAI, se han compartido algunos de los desarrollos realizados junto con sus socios. Uno de ellos ha sido con Age of Learning, una empresa de tecnología educativa centrada en el éxito académico de los niños.
Han utilizado la tecnología para proporcionar asistencia de lectura a niños y personas no letradas mediante voces emotivas que suenan naturales y representan una diversidad más amplia de hablantes que lo que es posible con voces predefinidas.
En cuanto a la detección de inteligencia artificial en la voz, OpenAI también ha mencionado que consideran que cualquier amplia implementación de tecnología de voz sintética debe ir acompañada de experiencias de autenticación de voz que verifiquen que el hablante original esté conscientemente agregando su voz al servicio. Además, proponen una lista de voces prohibidas que detecten y eviten la creación de voces que sean demasiado similares a figuras destacadas.
