Real Time OpenAI: la nueva herramienta de OpenAI
14 octubre, 2024
Durante un DevDay más discreto que en años anteriores, OpenAI ha presentado su nueva herramienta, la Realtime API, que permite a los desarrolladores integrar asistentes de voz, similar al Advanced Voice Mode de ChatGPT, en aplicaciones de terceros.
¿Qué permite Realtime API?
Realtime API ofrece la posibilidad de incorporar conversaciones por voz en todo tipo de apps, con la capacidad de ejecutar acciones específicas de manera rápida y con baja latencia. A futuro, la compañía planea expandir las funciones de esta API para que también soporte video y visión, aunque no se han establecido fechas concretas para estas mejoras.
Anteriormente, los desarrolladores que querían crear un asistente de voz tenían que pasar por varios pasos: convertir el audio en texto con un modelo de reconocimiento automático como Whisper, realizar inferencias con un modelo de texto y luego reproducir la respuesta mediante un sistema de texto a voz. Este proceso generaba problemas como pérdida de emoción, acentos y notable latencia. Realtime API optimiza este flujo, transmitiendo directamente las entradas y salidas de audio, creando experiencias de conversación más fluidas y naturales.
El principal objetivo de OpenAI con Realtime API es simplificar la creación de asistentes de voz en aplicaciones de terceros, brindando opciones como la elección de voces y la capacidad de interrumpir una respuesta sin perder el contexto de la conversación. Además, la integración con function calling permite que estos asistentes ejecuten acciones dentro de las apps, lo que es especialmente útil en escenarios como atención al cliente o entornos educativos que requieren una experiencia dinámica.
Un ejemplo destacado de uso es la app Speak, que emplea el asistente de voz para realizar correcciones de pronunciación en ejercicios interactivos, aprovechando las capacidades de Realtime API para hacer el aprendizaje de idiomas más efectivo.
En cuanto a seguridad y privacidad, OpenAI asegura que la Realtime API está construida sobre la misma infraestructura de seguridad de audio que el Advanced Voice Mode de ChatGPT y utiliza la misma versión de GPT-4. Además, sus términos de uso prohíben el uso de esta tecnología para engañar a los usuarios o con fines de spam, y obliga a los desarrolladores a informar claramente que los usuarios están interactuando con una IA, no con una persona.