Lo nuevo de STT de Google Cloud, mejor reconocimiento de voz

Google Cloud ya tiene disponible los modelos más nuevos para la API (Interfaz de Programación de Aplicaciones) de STT (Speech-to-Text o Dictado a texto), así como una nueva etiqueta de modelo para ayudar a los usuarios a acceder a estos.

Los modelos mejoran la precisión en 23 idiomas y 61 configuraciones regionales compatibles con STT, ayudando a las empresas u organizaciones a conectarse de manera más efectiva con sus clientes, a escala, a través de la voz.

Françoise Beaufays, científico distinguido del Equipo de Oratoria en Google Cloud, ha afirmado que la voz continúa emergiendo como la nueva frontera en la interacción humano-computadora.

Es por esto que muchas empresas pueden mejorar su tecnología y presentar sistemas de reconocimiento de voz que se relacionen de manera más confiable y precisa con lo que dicen sus usuarios.

“Una mayor calidad de reconocimiento de voz puede permitir que las personas hablen con sus aplicaciones y dispositivos de la misma manera que hablarían con sus amigos, sus médicos u otras personas con las que interactúan”.

Se trata de abanico de casos de uso, desde aplicaciones de manos libres para conductores hasta asistentes de voz en dispositivos inteligentes.

El reconocimiento de voz preciso también permite subtítulos en vivo en reuniones de video, información de conversaciones en vivo y grabadas, y mucho más.

Una mayor precisión y comprensión

Este nuevo modelo neuronal de secuencia a secuencia para el reconocimiento de voz ha sido un trabajo de casi ocho años investigación, implementación y optimización para proporcionar las mejores características de calidad en diferentes casos de uso, entornos de ruido, condiciones acústicas y vocabularios.

Beaufays ha dicho que la arquitectura subyacente al nuevo modelo se basa en técnicas de ML (Machine Learning o Aprendizaje Automático) de vanguardia y permite aprovechar los datos de entrenamiento de voz de manera más eficiente para conseguir resultados optimizados.

“Los modelos conformadores que anunciamos hoy se basan en una única red neuronal. En lugar de entrenar tres modelos separados que luego se deben unir, este enfoque ofrece un uso más eficiente de los parámetros del modelo”.

La nueva arquitectura aumentaría un modelo de transformador con capas de convolución (de ahí el nombre conformador), lo que permite capturar la información local y global en la señal de voz.

Ha adelantado que las empresas y desarrolladores verán instantáneamente mejoras de calidad listas para usar en la API STT y que los beneficios de esta nueva arquitectura se pueden sentir sin necesidad de ningún ajuste inicial.

“Con el soporte ampliado del modelo para diferentes tipos de voces, entornos de ruido y condiciones acústicas, puede producir resultados más precisos en más contextos”.

Siendo así, esto permitiría incorporar tecnologías de voz en las aplicaciones de manera más rápida, fácil y efectiva.

Spotify, por ejemplo, ha trabajado en estrecha colaboración con Google para llevar a los clientes su nueva interfaz de voz, “Hey Spotify”, a través de sus aplicaciones móviles y Car Thing.

“Los aumentos en la calidad y especialmente en la robustez del ruido de los últimos modelos, además del trabajo de Spotify en NLU y la IA, es lo que hace posible que estos servicios funcionen tan bien para tantos usuarios”, ha expresado Daniel Bromand, jefe de Productos de hardware de tecnología en Spotify.

Lo nuevo de STT de Google Cloud, mejor reconocimiento de voz

Una mayor precisión y comprensión

Microsoft incrementa su inversión en infraestructura de IA y Cloud en España

La Inteligencia Artificial, favoreciendo la atención médica

El uso de la Inteligencia Artificial, favoreciendo la sostenibilidad ambiental

Los retos de ciberseguridad para las compras en línea

La ciberseguridad en las empresas españolas es ya el objetivo principal de los consejos directivos

Grace Hopper, cable submarino que une a Norteamérica con Europa

Evitar las tácticas de phishing y scam con correctas medidas de ciberseguridad

Ayudando a desarrollar habilidades en la nube

Una mayor precisión y comprensión

Tal vez te interese

Microsoft incrementa su inversión en infraestructura de IA y Cloud en España

La Inteligencia Artificial, favoreciendo la atención médica

El uso de la Inteligencia Artificial, favoreciendo la sostenibilidad ambiental

Los retos de ciberseguridad para las compras en línea

La ciberseguridad en las empresas españolas es ya el objetivo principal de los consejos directivos

Grace Hopper, cable submarino que une a Norteamérica con Europa

Evitar las tácticas de phishing y scam con correctas medidas de ciberseguridad

Ayudando a desarrollar habilidades en la nube

UNE-EN 50600 El estándar europeo para centros de datos

Lidl abandona SAP tras invertir 500 millones y 7 años

La solución basada en análisis NDR para detectar y responder ciberataques

El método basado en redes neuronales para la producción de energía eólica