Los investigadores mejoran la visión periférica en modelos de IA

13/03/2024 noticia subida al MIT news el 8/03/2024

La investigación del MIT sugiere que cierto tipo de modelo robusto de visión por computadora percibe las representaciones visuales de manera similar a la forma en que los humanos usan la visión periférica. Estos modelos, conocidos como modelos adversariamente robustos, están diseñados para superar sutiles bits de ruido que se han agregado a los datos de la imagen.

Al permitir que los modelos vean el mundo de forma más parecida a como lo ven los humanos, el trabajo podría ayudar a mejorar la seguridad de los conductores y arrojar luz sobre el comportamiento humano.

La visión periférica permite a los humanos ver formas que no están directamente en nuestra línea de visión, aunque con menos detalle. Esta capacidad amplía nuestro campo de visión y puede resultar de ayuda en muchas situaciones, como por ejemplo detectar un vehículo que se acerca a nuestro coche por el lateral.

A diferencia de los humanos, la IA no tiene visión periférica. Equipar modelos de visión por computadora con esta capacidad podría ayudarlos a detectar peligros que se aproximan de manera más efectiva o predecir si un conductor humano notaría un objeto que se aproxima.

Dando un paso en esta dirección, los investigadores del MIT desarrollaron un conjunto de datos de imágenes que les permite simular la visión periférica en modelos de aprendizaje automático. Descubrieron que entrenar modelos con este conjunto de datos mejoraba la capacidad de los modelos para detectar objetos en la periferia visual, aunque los modelos aún funcionaban peor que los humanos.

Sus resultados también revelaron que, a diferencia de los humanos, ni el tamaño de los objetos ni la cantidad de desorden visual en una escena tuvieron un fuerte impacto en el rendimiento de la IA.

“Aquí está sucediendo algo fundamental. Probamos muchos modelos diferentes, e incluso cuando los entrenamos, mejoran un poco, pero no se parecen mucho a los humanos. Entonces la pregunta es: ¿Qué falta en estos modelos?” dice Vasha DuTell, postdoctoral y coautora de un artículo que detalla este estudio .

Responder a esa pregunta puede ayudar a los investigadores a construir modelos de aprendizaje automático que puedan ver el mundo de forma más parecida a como lo ven los humanos. Además de mejorar la seguridad del conductor, estos modelos podrían usarse para desarrollar pantallas que sean más fáciles de ver para las personas.

Simulando la visión periférica

Extienda el brazo frente a usted y levante el pulgar; la fóvea ve el área pequeña alrededor de la uña, la pequeña depresión en el medio de la retina que proporciona la visión más nítida. Todo lo demás que puedes ver está en tu periferia visual. Su corteza visual representa una escena con menos detalles y confiabilidad a medida que se aleja de ese punto de enfoque nítido.

Muchos enfoques existentes para modelar la visión periférica en IA representan este detalle deteriorado al difuminar los bordes de las imágenes, pero la pérdida de información que ocurre en el nervio óptico y la corteza visual es mucho más compleja.

Para lograr un enfoque más preciso, los investigadores del MIT comenzaron con una técnica utilizada para modelar la visión periférica en humanos. Conocido como modelo de mosaico de texturas, este método transforma imágenes para representar la pérdida de información visual de un ser humano.

Modificaron este modelo para que pudiera transformar imágenes de manera similar, pero de una manera más flexible que no requiere saber de antemano hacia dónde apuntará la persona o la IA.

"Eso nos permitió modelar fielmente la visión periférica de la misma manera que se hace en la investigación de la visión humana", dice Harrington.

Los investigadores utilizaron esta técnica modificada para generar un enorme conjunto de datos de imágenes transformadas que parecen más texturizadas en ciertas áreas, para representar la pérdida de detalle que ocurre cuando un humano mira más hacia la periferia.

Luego utilizaron el conjunto de datos para entrenar varios modelos de visión por computadora y compararon su desempeño con el de los humanos en una tarea de detección de objetos.

noticia extraída de

https://news.mit.edu/2024/researchers-enhance-peripheral-vision-ai-models-0308

Buscar este blog

Blog Inteligencia Artificial - Semillero IA, Universidad Autónoma de Occidente