Qu'est-ce que la mise au point automatique Deep Learning: comment fonctionne la mise au point automatique alimentée par l'IA de Canon?

Canon a fait beaucoup de bruit à propos de son nouveau système AF Deep Learning, qui se trouve au cœur du dernier appareil photo professionnel phare du fabricant. Cela semble incroyablement intelligent, mais il y a beaucoup de questions - qu'est-ce que le Deep Learning? Qui enseigne? Le système apprend-il pendant que vous tirez? Est-ce vraiment de l'intelligence artificielle dans une caméra? Cela améliore-t-il réellement la mise au point automatique?

Si vous avez lu notre critique du Canon EOS-1D X Mark III, vous saurez que la réponse à la dernière question est un oui retentissant. Pour ce qui est des réponses aux autres questions sur l'AF Deep Learning, prenez un verre et une collation et lisez la suite…

Les mécanismes de mise au point automatique du Canon EOS-1D X Mark III sont incroyablement intelligents, prenant en charge deux systèmes AF individuels. Le premier est le système optique, qui prend 16 images par seconde à travers le viseur, à l'aide d'un capteur de mesure de 400 000 pixels associé à un processeur Digic 8 dédié, pour une AF à 191 points capable de suivre le visage.

Ensuite, il y a le système Live View, capable de prendre 20 images par seconde, utilisant les 20,1 millions de pixels du capteur d'image combinés au nouveau processeur Digic X, pour 3869 points CMOS Dual Pixel capables d'effectuer une mise au point automatique à détection oculaire complète.

La technologie EOS iTR AFX principale de Canon alimente ces deux systèmes - la dernière itération de sa mise au point automatique de suivi et de reconnaissance intelligents, qui a fait ses débuts dans l'EOS-1D X d'origine (et a ensuite fait son chemin vers les familles 7D Mark II et 5D). Et enfoui dans ses circuits se trouve l'algorithme Deep Learning.

Le Deep Learning n'est PAS la même chose que l'IA

Tout d'abord, il est important de préciser que le Deep Learning ne doit pas être confondu avec l'intelligence artificielle (IA). Un système d'IA est quelque chose qui est en cours de développement. Le Deep Learning, ou apprentissage automatique, est un sous-ensemble de l'IA.

Contrairement à la véritable IA, le Deep Learning est un processus fermé. Il s'agit d'un algorithme de pré-assemblage qui permet à l'architecture de la caméra de s'enseigner elle-même, beaucoup plus rapidement qu'elle ne pourrait être programmée manuellement par des ingénieurs humains. Une fois cet apprentissage terminé, il est verrouillé et chargé dans la caméra.

À partir de là, plus aucun apprentissage n'est possible; malgré le nom - et Deep Learning est le nom de la technologie, pas une description du processus - la caméra n'apprend pas constamment et ne s'améliorera pas plus vous filmez (en effet, un véritable système d'IA en apprendrait autant de vos mauvaises habitudes comme de vos bonnes!).

«Cela a été enseigné», explique Mike Burnhill, responsable du support technique pour Canon Europe. "Vous le mettez dans un ordinateur, cela crée l'algorithme qui est ensuite chargé dans la caméra. Donc, c'est différent de l'IA - l'IA est un apprentissage continu; l'apprentissage en profondeur est fondamentalement, il s'instruit et vous donne un résultat final qui est ensuite chargé. dans la caméra. "

Ce qui soulève la question: avec tant d'entreprises qui crient à propos des fonctionnalités basées sur l'IA, une caméra est-elle réellement capable de prendre en charge l'intelligence artificielle?

«La puissance de traitement nécessaire pour réaliser une véritable IA n'est pas réalisable dans un appareil photo», déclare Burnhill. «Si vous voulez faire cela, il y a des téléphones - mais les données ne sont pas dans votre téléphone, c'est dans la Silicon Valley. C'est là que se trouve le système d'IA. C'est juste que votre connexion téléphonique s'y connecte - ce n'est pas ici, c'est là (en le cloud), car vous avez besoin d'un serveur. Nous pourrions faire une caméra, mais vous traîneriez un flight case géant avec vous tout le temps. "

Comment le Deep Learning s'enseigne-t-il?

Ainsi, l'algorithme Deep Learning s'enseigne tout seul - mais d'où apprend-il réellement? La réponse, en termes simples, est «du meilleur».

«Canon a travaillé avec nos agences», nous dit Burnhill. "Nous avons eu essentiellement accès à toute leur base de données d'images de photographie sportive, de toutes les grandes agences, nous avons travaillé avec nos ambassadeurs qui photographient des sports, et ils ont fourni leurs images de différents sujets, et cela nous a permis d'enseigner à ce système AF comment reconnaître les sportifs. "

Le sport, évidemment, est la méthode d'enseignement ciblée car le Canon EOS-1D X Mark III est avant tout un appareil photo de sport. Le problème est que, qu'il s'agisse d'un basketteur tourné vers la caméra, d'un skieur portant des lunettes ou d'un pilote de Formule 1 portant un casque, les sportifs ont souvent le visage obscurci - ce qui signifie que la détection AF traditionnelle du visage ou même des yeux ne le fait pas. t fonctionne, et la caméra se verrouillera à la place sur des choses comme les chiffres sur l'uniforme d'un joueur.

En donnant à l'algorithme Deep Learning l'accès à une vaste bibliothèque d'images, de tout, des gymnastes à l'envers aux joueurs de hockey portant des coussinets et des casques, il est capable d'apprendre et de différencier la forme humaine dans une variété infinie de situations - et est finalement capable pour effectuer cette «détection de la tête», de sorte que même si le visage de la personne n'est pas visible, la tête est toujours le point de focalisation principal.

"L'apprentissage en profondeur, c'est essentiellement ce qu'il y a des images, vous créez un ensemble de règles par lesquelles il doit apprendre, puis c'est parti et il crée son propre algorithme", poursuit Burnhill. «Donc, vous définissez les paramètres de ce à quoi la personne ressemblerait, vous dites:« Voici la personne », puis il analyse toutes les images des personnes et dit:« C'est une personne »,« C'est une personne ». parcourt des millions d'images sur une période de temps et crée cette base de données, et il apprend par lui-même. "

En fait, l'algorithme crée en fait deux bases de données - une pour entretenir le système AF du viseur optique et la mesure, en utilisant Digic 8, et une pour entretenir le système Live View AF qui utilise Digic X. Puisque c'est le Digic X qui fait tout le calcul pour suivi de la tête, une fois que l'algorithme AF détecte une personne dans le cadre, tout est transféré vers le nouveau processeur.

«Une fois que vous avez une personne, vous avez en fait un double traitement en cours», déclare Burnhill. "Il y a deux bases de données ici, parce que l'entrée des deux capteurs sera légèrement différente, donc la façon dont elle sera reconnue sera légèrement différente, donc ce sont des sous-ensembles du même algorithme. Les données de base pour les deux sont les mêmes, c'est juste comment il sera reconnu et les bonnes données qui lui seront appliquées. "

S'il ne peut pas apprendre de nouvelles choses… qu'en est-il de la FA animale?

Bien sûr, le Canon EOS-1D X Mark III n'est pas seulement un appareil photo de sport - son autre public clé est les tireurs d'animaux. Pourtant, la caméra ne possède pas de capacité de mise au point automatique pour les animaux, et nous avons établi que le Deep Learning ne peut pas réellement apprendre de nouvelles astuces une fois qu'il a été intégré à la caméra. Alors c'est ça? Avec toute cette nouvelle technologie sophistiquée, la caméra ne se concentrera-t-elle même pas sur le chien de la famille?

Il est vrai que, pour le moment, l'appareil photo ne propose pas de mise au point automatique (ou œil d'animal). "Fondamentalement, nous nous concentrons sur les personnes avec lesquelles commencer pour faire fonctionner ce type d'algorithme en premier", répond Burnhill. "C’est pourquoi nous nous sommes concentrés sur le sport, car c’est un paramètre défini et nous pouvons l’enseigner dans un certain laps de temps",

La réponse réside donc dans le firmware. Burnhill a confirmé qu'il était possible que la caméra subisse plus d'apprentissage en profondeur, pour des choses comme les oiseaux et la faune, et que cet algorithme mis à jour soit diffusé aux utilisateurs via des mises à jour du micrologiciel - bien qu'il n'y ait pas de plans concrets à annoncer.

"Nous allons le développer tout le temps, donc pour le moment il est encore indécis comment et où nous allons. Mais l'équipe de développement va et regarde d'autres photographies d'animaux - nous réalisons qu'il y a toute une série de domaines, mais évidemment le grand L'objectif de cet appareil photo est le sport, puis la faune, et c'était évidemment la priorité à Tokyo 2022-2023. "

C'est un bon point; si Canon attendait que le Deep Learning apprenne tout, il aurait fallu plus de temps pour que l'appareil photo sorte. Et bien que des fabricants comme Sony se vantent d'avoir une AF animale sélective dans leurs appareils photo, Burnhill note que Canon préfère de loin publier une solution AF animale complète plutôt qu'une solution sélective et fragmentaire. Et c'est là que le Deep Learning deviendra inestimable.

«Le problème, c'est avec la faune, il y a beaucoup d'animaux différents - vous avez évidemment des prédateurs avec les yeux à l'avant, et puis vous avez des lapins (yeux) sur le côté, vous avez des serpents, vous avez des oiseaux … il n'y a pas de système qui reconnaît les visages de tous les animaux. Et c'est là que vous entrez dans tout cet apprentissage profond, d'apprendre au système à reconnaître ces choses complexes. "

Ainsi, bien que votre Sony puisse suivre votre chien ou votre chat, mais pas une salamandre ou un flamant rose, Canon souhaite produire un appareil photo qui fait tout ou rien. «Si nous voulions le faire, nous voudrions le faire pour un spectre aussi large - nous ne voulons pas faire une caméra adaptée aux chiens et une caméra adaptée aux chats, nous voulons créer une caméra adaptée aux animaux. cela fonctionne pour le large éventail d'animaux que (les professionnels) tireraient. "

Test du Canon EOS-1D X Mark III
Comment Canon a-t-il créé le reflex numérique le plus rapide de tous les temps? En repensant la boîte à miroirs
102 mises à jour sur le Canon EOS-1D X Mark III

Articles intéressants...