El sistema de CV de Facebook AI para crear recetas de comida

8

Los investigadores de Facebook AI (Inteligencia Artificial) han creado un sistema de CV (Visión por Computadora) que puede analizar una foto de comida y luego crear una receta desde cero.

Solo hay que tomar una foto de un plato en particular y, en segundos, el sistema puede analizar la imagen, generar una receta con una lista de ingredientes y los pasos necesarios para crear el plato.

Hasta ahora, aunque el sistema de CV es solo para investigación, se informó que ha demostrado ser un desafío interesante para el proyecto más amplio de máquinas de enseñanza para ver y comprender el mundo.

Se trata de un sistema de “cocción inversa” que utiliza la Visión por Computadora, es decir, la tecnología que extrae información de imágenes y videos digitales para brindar a las computadoras un alto nivel de comprensión del mundo visual.

Funciona de forma similar a las aplicaciones de teléfonos inteligentes que permiten identificar especies de plantas y perros, o que escanean las tarjetas de créditos para que el usuario no tenga que tocar todos los números.

Pero, de acuerdo a un comunicado de prensa, este no es un sistema de CV ordinario pues “tiene materia gris adicional”. Y es que aprovecha no una sino dos redes neuronales, que son algoritmos diseñados para reconocer patrones en imágenes digitales.

Michal Drozdzal, científico investigador de Facebook AI Research, ha explicado que el sistema de cocción inversa divide el problema de imagen a una receta en dos partes: una red neuronal identifica los ingredientes que ve en el plato, mientras que el otro diseña una receta lista.

Ha dicho que este sistema mejorado de Visión por Computadora es más efectivo que las técnicas de recuperación de imagen a receta, que trabajan para reconocer el manjar en cuestión y luego buscar en una base de datos de recetas preexistentes.

“Nuestro sistema superó al sistema de recuperación, tanto en predicciones de ingredientes, como en la generación de recetas plausibles”.

Drozdzal y Adriana Romero, científica investigadora de Facebook AI, quienes se conocieron mientras estudiaban para doctorados en la Universidad de Barcelona, también han afirmado que su sistema de CV podría, incluso, presentar una receta decente para el complicado plato de arroz español: la paella.

Se ha explicado que el reconocimiento de alimentos es una de las áreas más difíciles de entender en la imagen natural, ya que los alimentos vienen en todas las formas y tamaños, lo que para los científicos de Inteligencia Artificial es conocido como “alta variabilidad intraclase”; cambian de apariencia cuando se cocinan.

Sistema de reconocimiento de imágenes

Los programas anteriores de imagen a receta, según lo planteado, han sido un poco más simples en su enfoque. De hecho, se ha comparado su accionar con pensamientos más cercanos a los bibliotecarios de Gopher, que como chefs de Le Cordon Bleu.

Drozdzal ha explicado que estos sistemas menos sofisticados simplemente recuperaron una receta de un conjunto de datos fijo, basado en la similitud de la foto con las imágenes en el archivo.

“Fue como tener una foto de la comida y luego buscar en un enorme libro de cocina de imágenes para que coincida arriba. Es difícil de igualar si una receta no está en el conjunto de datos y la imagen o la apariencia del plato son diferentes al conjunto de datos”.

Entonces, la red de predicción de ingredientes funciona más o menos de acuerdo con el principio de resolución de problemas de la navaja de afeitar de Occam: que la explicación que parece más plausible es probablemente la correcta.

Drozdzal, Romero y su equipo, por ejemplo, han tomado el conjunto de datos Recipe1M, que tiene casi 17 mil ingredientes, y ha lo reducido mil 500 más manejables.

También han entrenado el modelo para predecir que ciertos ingredientes a menudo aparecen juntos, como sal y pimienta, queso y tomate, y canela y azúcar.

Además, la red generadora de recetas funciona a partir del conjunto de datos Recipe1M, que el equipo redujo de aproximadamente un millón de recetas a alrededor de 350 mil.

“Las recetas que hicieron el corte contenían imágenes y tenían dos o más ingredientes o instrucciones. El conjunto de datos proporciona a la red neuronal un vocabulario de casi 25 mil palabras únicas además de la información de la imagen y la lista de ingredientes”.

La red igualmente analiza la interacción entre la imagen y los ingredientes con la finalidad de obtener información sobre la forma en que se procesaron los alimentos para producir el plato resultante.

Aporte de las redes neuronales

Volviendo a la paella, se ha insistido en que la primera de las redes neuronales puede reconocer el arroz, la cebolla, el tomate y, según la generosidad del chef, algunos mariscos.

Por su parte, la segunda de sus redes neuronales comienza a generar una receta a partir de los ingredientes inferidos: cortar y freír la cebolla; agregue el arroz, tomates picados y, finalmente, algunas gambas y mejillones.

“Todo el sistema está aportando su propio razonamiento de alto nivel para influir en tres fuentes de información: la imagen, la lista correspondiente de ingredientes y el conocimiento previo del sistema”.

Además, se ha explicado que tiene la capacidad de hacer conjeturas bien educadas en lugar de convertir la generación de recetas en un gigante desfile de identidad.

En todo caso, se cree que el proyecto de investigación de Facebook AI tendrá beneficios educativos y epicúreos, de acuerdo a los investigadores, y muy especialmente lo afirmado por Romero.

“La comida que consumimos hoy en día ha pasado de ser casera a comida para llevar, por lo que hemos perdido la información sobre cómo se preparó la comida”.

Mientras que los creadores de cocina inversa continúan afinando el sistema, Drozdzal ha agregado que a veces no puede predecir un ingrediente, lo que significa que no estará presente en la receta.

Además, quieren entrenar el sistema de CV para tratar el problema de los alimentos visualmente similares, ya sean espaguetis y fideos, mayonesa y crema agria, entre otros.