Lo nuevo de STT de Google Cloud, mejor reconocimiento de voz

Foto: Google Cloud

Google Cloud ya tiene disponible los modelos más nuevos para la API (Interfaz de Programación de Aplicaciones) de STT (Speech-to-Text o Dictado a texto), así como una nueva etiqueta de modelo para ayudar a los usuarios a acceder a estos.

Los modelos mejoran la precisión en 23 idiomas y 61 configuraciones regionales compatibles con STT, ayudando a las empresas u organizaciones a conectarse de manera más efectiva con sus clientes, a escala, a través de la voz.

Françoise Beaufays, científico distinguido del Equipo de Oratoria en Google Cloud, ha afirmado que la voz continúa emergiendo como la nueva frontera en la interacción humano-computadora.

Es por esto que muchas empresas pueden mejorar su tecnología y presentar sistemas de reconocimiento de voz que se relacionen de manera más confiable y precisa con lo que dicen sus usuarios.

“Una mayor calidad de reconocimiento de voz puede permitir que las personas hablen con sus aplicaciones y dispositivos de la misma manera que hablarían con sus amigos, sus médicos u otras personas con las que interactúan”.

Se trata de abanico de casos de uso, desde aplicaciones de manos libres para conductores hasta asistentes de voz en dispositivos inteligentes.

El reconocimiento de voz preciso también permite subtítulos en vivo en reuniones de video, información de conversaciones en vivo y grabadas, y mucho más.

Una mayor precisión y comprensión

Este nuevo modelo neuronal de secuencia a secuencia para el reconocimiento de voz ha sido un trabajo de casi ocho años investigación, implementación y optimización para proporcionar las mejores características de calidad en diferentes casos de uso, entornos de ruido, condiciones acústicas y vocabularios.

Beaufays ha dicho que la arquitectura subyacente al nuevo modelo se basa en técnicas de ML (Machine Learning o Aprendizaje Automático) de vanguardia y permite aprovechar los datos de entrenamiento de voz de manera más eficiente para conseguir resultados optimizados.

“Los modelos conformadores que anunciamos hoy se basan en una única red neuronal. En lugar de entrenar tres modelos separados que luego se deben unir, este enfoque ofrece un uso más eficiente de los parámetros del modelo”.

La nueva arquitectura aumentaría un modelo de transformador con capas de convolución (de ahí el nombre conformador), lo que permite capturar la información local y global en la señal de voz.

Ha adelantado que las empresas y desarrolladores verán instantáneamente mejoras de calidad listas para usar en la API STT y que los beneficios de esta nueva arquitectura se pueden sentir sin necesidad de ningún ajuste inicial.

“Con el soporte ampliado del modelo para diferentes tipos de voces, entornos de ruido y condiciones acústicas, puede producir resultados más precisos en más contextos”.

Siendo así, esto permitiría incorporar tecnologías de voz en las aplicaciones de manera más rápida, fácil y efectiva.

Spotify, por ejemplo, ha trabajado en estrecha colaboración con Google para llevar a los clientes su nueva interfaz de voz, “Hey Spotify”, a través de sus aplicaciones móviles y Car Thing.

“Los aumentos en la calidad y especialmente en la robustez del ruido de los últimos modelos, además del trabajo de Spotify en NLU y la IA, es lo que hace posible que estos servicios funcionen tan bien para tantos usuarios”, ha expresado Daniel Bromand, jefe de Productos de hardware de tecnología en Spotify.