Toshiba Corporation a développé une IA avec reconnaissance 3D capable de mesurer la distance avec la précision d'une caméra stéréo, en utilisant l'image prise avec une caméra commerciale et en analysant le flou d'image causé par l'objectif de la caméra à l'aide d'un apprentissage en profondeur. Cette technologie éliminera l'utilisation de caméras stéréo, ce qui réduira éventuellement le coût et l'espace. Toshiba présentera cette réalisation lors de la conférence internationale sur la vision par ordinateur (ICCV2019) qui se tiendra en Corée du Sud le 30 octobre 2019 à partir de 10 heures.
La détection d'image devient de plus en plus importante et des applications telles que des robots en mouvement d'objets, des véhicules autonomes sans pilote, des drones télécommandés inspectant l'infrastructure, etc., nécessitent plus que de simples images des sujets, elles ont besoin d'un petit appareil pour analyser les données 3D afin d'inclure la forme et la distance. Par conséquent, les recherches ont été intensifiées pour développer une technologie de mesure avec des caméras monoculaires (elles sont faciles à miniaturiser) en utilisant l'apprentissage en profondeur pour un meilleur apprentissage de la forme, de l'arrière-plan et d'autres données de paysage de l'objet imagé.
Cette méthode présente un inconvénient; la précision de la distance est estimée à l'aide d'une caméra monoculaire en fonction des données de paysage apprises, ce qui entraîne une baisse de précision en raison des prises de vue dans différents paysages. Pour surmonter ce problème, Toshiba a développé une photographie à ouverture filtrée couleur dans laquelle deux filtres couleur sont fixés à l'objectif et la couleur et la taille du flou d'image résultant sont analysées en fonction de la distance du sujet. Bien que cela résout le problème de dépendance aux données, il faut du temps et de l'argent pour modifier les lentilles existantes.
Toshiba a surmonté ce problème en développant une IA avec une technologie de reconnaissance 3D qui utilise l'apprentissage en profondeur pour analyser comment l'image est floue en fonction de sa position sur l'objectif, afin d'obtenir une mesure de distance avec la même précision élevée qu'un système de caméra stéréo., avec une caméra monoculaire normale mais sans aucun besoin de données de paysage. Jusqu'à présent, il était théoriquement impossible de mesurer la distance en fonction de la forme du flou, ce qui est le même pour les objets à la fois éloignés et éloignés lorsqu'ils sont à égale distance du point focal. Mais, les résultats analytiques ont montré une différence substantielle entre les formes de flou des objets proches et éloignés, même s'ils sont équidistants du point focal. Avec cela, Toshiba a analysé avec succès les données de flou des images capturées par un module d'apprentissage profond formé avec le modèle de réseau neuronal profond.
Lorsque la lumière passe à travers l'objectif, la forme du flou créé est connue pour changer en fonction de la longueur d'onde de la lumière et de sa position dans l'objectif. Dans le réseau développé, la position et la couleur sont traitées séparément pour percevoir correctement les changements de forme de flou, puis, après avoir traversé un mécanisme d'attention pondérée, pour contrôler où se concentrer sur le gradient de luminosité afin de mesurer correctement la distance. Grâce à l'apprentissage, le réseau est ensuite mis à jour pour réduire une erreur entre la distance mesurée et la distance réelle. En utilisant ce module AI, Toshiba a confirmé qu'une seule image capturée avec une caméra disponible dans le commerce réalise la même précision de mesure de distance assurée par des caméras stéréo. Plus d'informations peuvent être trouvées sur cette page officielle de Toshiba.
Toshiba confirmera la polyvalence du système avec des caméras et des objectifs disponibles dans le commerce et accélérera le traitement de l'image, visant une mise en œuvre publique au cours de l'exercice 2020.