Las descripciones de imágenes de Google, Aprendizaje Automático para ayudar a discapacitados

Recientemente se ha creado una función de descripción de imagen automática que busca favorecer a las personas ciegas o con baja visión. Se trata de “Obtener descripciones de imágenes de Google”, herramienta que permite a Chrome crear una descripción cuando un lector de pantalla encuentra una imagen o gráfico sin ningún tipo de detalles o atributos.

La intención ha sido mejorar la experiencia en las páginas que contienen imágenes sin descripciones, ya que las personas ciegas o con baja visión no pueden obtener toda la información transmitida o, lo que es peor, puede provocar que el sitio sea totalmente inutilizable para ellas.

Dominic Mazzoni, ingeniero de Software para Accesibilidad de Chrome, ha explicado que todo lo que compone la web (texto, imágenes, video y audio) se puede descubrir fácilmente.

Dijo que muchas personas ciegas o con baja visión confían en los lectores de pantalla para que el contenido de las páginas web sea accesible a través de comentarios hablados o braille.

Los lectores de pantalla, para las imágenes y los gráficos, confían en las descripciones creadas por los desarrolladores y autores web, que generalmente se denominan “texto alternativo” o “atributos alternativos” en el código.

“Sin embargo, hay millones de imágenes en línea sin ninguna descripción, lo que lleva a los lectores de pantalla a decir ‘imagen’, ‘gráfico sin etiqueta’ o una lectura larga e inútil del nombre del archivo de la imagen”.

A su juicio, las descripciones de imágenes generadas automáticamente por una computadora no son tan buenas como las escritas por un humano que puede incluir contexto adicional, pero pueden ser precisas y útiles.

De hecho, las descripciones de imágenes pueden ayudar a una persona ciega a leer el menú de un restaurante o comprender mejor lo que sus amigos publican en las redes sociales.

Función de Aprendizaje Automático

Se ha conocido que si alguien que usa un lector de pantalla elige optar por la Configuración, una imagen sin etiqueta en Chrome se envía de forma segura a un servidor de Google con software de Aprendizaje Automático (Machine Learning, ML).

Mazzoni ha detallado que la tecnología agrega datos de múltiples modelos de Aprendizaje Automático y que algunos modelos buscan texto en la imagen, incluidos signos, etiquetas y palabras escritas a mano.

Otros modelos, por su parte, buscan objetos que han sido entrenados para reconocer, como un lápiz, un árbol, una persona con traje de negocios o un helicóptero. Entonces, el modelo más sofisticado puede describir la idea principal de una imagen usando una oración completa.

“La descripción se evalúa por su precisión e información valiosa: ¿La anotación describe bien la imagen? ¿Es útil la descripción? Según si la anotación cumple con ese criterio, el modelo de Aprendizaje Automático determina qué debe mostrarse a la persona, en todo caso”.

El Ingeniero de Software ha dejado claro que solo se proporcionará una descripción si tienen la confianza razonable de que es correcta. En caso de que alguno de los modelos indique que los resultados pueden ser inexactos o engañosos, se equivocarían al dar una respuesta más simple o nada en absoluto.

Un par de ejemplos de las descripciones de imágenes reales generadas por Chrome cuando se usa con un lector de pantalla podría ser, en principio, algunas piñas, plátanos y cocos colocados sobre una mesa o un estante. La descripción generada por la máquina para esta imagen sería algo así como “Parece ser: frutas y verduras en el mercado”.

En cambio, si se trata de un hombre tocando la guitarra en un sofá gris, la descripción generada por la máquina para esta imagen podría ser algo como “Parece ser: Persona tocando la guitarra en el sofá”.

Creando descripciones de imágenes

En una entrada de blog también se ha informado que la función de Aprendizaje Automático ha creado más de 10 millones de descripciones de imágenes durante los últimos meses de pruebas, con cientos de miles que se agregan todos los días.

Hay que mencionar que la función está disponible en inglés, pero en la empresa planean agregar más idiomas muy pronto.

Se ha insistido en que las descripciones de imágenes en Chrome no están destinadas a reemplazar la creación web diligente y responsable, ya que siempre exhortan a los desarrolladores y autores web a seguir las mejores prácticas y proporcionar descripciones de imágenes en sus sitios.

Sin embargo, Dominic Mazzoni ha dicho que en Google esperan que esta característica sea un paso para hacer que la web sea más accesible para todos, sobre todo para las personas ciegas o con baja visión.