Manik Varma, investigador principal en Microsoft Research India, ha ampliado detalles sobre un área de investigación relativamente nueva relacionada al Aprendizaje Automático o Machine Learning (ML), denominada clasificación extrema.
En una entrada de blog ha explicado parte de la evolución histórica en este sentido, asegurando que el problema más estudiado del Aprendizaje Automático es la clasificación binaria: aprender a responder preguntas de sí / no relacionadas con la incertidumbre.
Luego, la comunidad se dio cuenta que en realidad existen muchas aplicaciones de alto impacto en el mundo real que no son simples preguntas de sí / no, pues en realidad son preguntas de opción múltiple. Esa situación llevó al campo de la clasificación multiclase.
“Y luego, después de eso, la comunidad se dio cuenta de que hay algunas aplicaciones de alto impacto que no sólo son de opción múltiple, sino que también tienen varias respuestas correctas. Y esto condujo al establecimiento del área de clasificación multietiqueta”.
Varma ha señalado que se ha pasado de dos opciones en la clasificación binaria, a decenas de cientos y miles de opciones en el aprendizaje en múltiples clases y en múltiples etiquetas, lo que convierte al ML en un problema nada nuevo que se hace más grande cada día.
“Así es como comenzó la clasificación extrema. Entonces, como mencioné, en 2012, el conjunto de datos de etiquetas múltiples más grande disponible públicamente tenía alrededor de cinco mil etiquetas. Pero luego, en 2013, publicamos un artículo que hizo explotar el número de etiquetas que se consideran en un clasificador de etiquetas múltiples de cinco mil a 10 millones”.
A juicio de Varma, eso realmente cambió la naturaleza del juego y, por lo tanto, la aplicación motivadora fue crear un clasificador que los anunciantes pudieran utilizar como herramienta para predecir qué consultas de Bing conducirían a un clic en el anuncio o el documento.
“Y, desde el contexto de la aplicación, se puede imaginar que este es un problema realmente importante, tanto desde el punto de vista de la investigación como desde el punto de vista comercial. En la literatura se han desarrollado muchas técnicas sofisticadas de procesamiento de lenguaje natural, Aprendizaje Automático y recuperación de información para resolver este problema”.
Sin embargo, ha añadido que desafortunadamente ninguna de estas técnicas funcionaba para su equipo de anuncios. Y es que tenían miles de millones de anuncios para los cuales todos estos enfoques sofisticados no estaban haciendo predicciones de buena calidad y, por ello, decidieron volver al tablero de dibujo.
Construcción del sistema de clasificación extrema
El investigador ha confirmado que les llevó dos años construir el sistema, ejecutar los experimentos, publicar sus resultados y verificar todo. Pero, una vez que llegaron los resultados, encontraron que su enfoque era mejor que todos los enfoques tradicionales.
“Por lo tanto, la cantidad de anuncios para los que hace recomendaciones de buena calidad aumentó de aproximadamente 60% para el sistema Bing a aproximadamente 95-98% para nosotros”.
La calidad de sus recomendaciones también mejoró mucho, según Manik Varma, y eso llevó al establecimiento del área de clasificación extrema que se ocupa de problemas de múltiples clases y de múltiples etiquetas en espacios de etiquetas extremadamente grandes: en millones o billones de etiquetas.
Él cree que esa es la razón por la cual la clasificación extrema se ha convertido en un área de investigación completamente nueva en sí misma. Considera que surgen preguntas de investigación fundamentalmente nuevas cuando, por ejemplo, se pasa de 100 etiquetas a 100 millones de etiquetas.
En la clasificación extrema, ha apuntado, no hay ningún ser humano que pueda revisar una lista de 100 millones de etiquetas para decir cuáles son las predicciones correctas para un punto de datos. Por lo tanto, incluso las técnicas de Aprendizaje Automático más fundamentales, como la validación cruzada, pueden ir a la escala extrema.
“Y faltarán etiquetas en su conjunto de pruebas, en su conjunto de validación, en su conjunto de entrenamiento. Y esto es como una diferencia fundamental que tiene con la clasificación tradicional donde un ser humano podría ir a través de una lista de 100 etiquetas y marcar el subconjunto correcto”.
Aplicación de la clasificación extrema
Manik Varma ha referido que en los últimos cinco años la gente ha encontrado aplicaciones de muy alto impacto de clasificación extrema. Uno de ellos, por ejemplo, ha indicado que conduce a reformulaciones de problemas bien conocidos en el Aprendizaje Automático como la clasificación y la recomendación, que son fundamentales para la industria donde trabaja.
“Supongamos que usted desea, por ejemplo, diseñar un motor de búsqueda, ¿verdad? Puede tratar cada documento en la web como una etiqueta, y ahora, cuando entra una consulta, puede conocer el clasificador que tomará la entrada del vector de características de la consulta y predecir qué subconjunto de documentos en la web son relevantes para esta consulta en particular”.
Así se podrían mostrar esos documentos y clasificarlos según la probabilidad de los clasificadores y reformular la clasificación. Simultáneamente, piensa en una recomendación similar.
“Y así puedes reformular el ranking y la recomendación como clasificación extrema y, a veces, esto puede llevar a ganancias de rendimiento muy grandes en comparación con los métodos tradicionales como el filtrado colaborativo o el aprendizaje para clasificar o los métodos basados en el contenido. Y eso es para lo que la clasificación extrema es realmente buena”, según Manik Varma.