APPRENTISSAGE PROFOND ou DEEP LEARNING

Carte mentale

Élargissez votre recherche dans Universalis

Apprentissage profond, deep learning en anglais, ou encore « rétropropagation de gradient »… ces termes, quasi synonymes, désignent des techniques d’apprentissage machine (machine learning), une sous-branche de l’intelligence artificielle qui vise à construire automatiquement des connaissances à partir de grandes quantités d’information. Les succès qu’enregistrent ces techniques leur confèrent un rôle essentiel dans le monde contemporain, où elles apparaissent être à l’origine d’innombrables applications pratiques (reconnaissance des visages et de la parole, voiture autonome, etc.). Même si elles semblent constituer un renouveau, voire une révolution de l’intelligence artificielle, les principes sur lesquels elles reposent sont anciens. Très tôt, avant même l’avènement de l’intelligence artificielle – discipline ayant vu le jour officiellement en 1956 –, avec la cybernétique – courant de réflexion créé en 1946 à l’issue des premières tentatives de simulation du vivant et du cerveau aux moyens de flux d’information – et l’article séminal d’Alan Turing (1912-1954) sur l’intelligence des machines (1950), il apparut nécessaire de développer des techniques d’apprentissage machine afin que les ordinateurs soient capables de s’adapter aux évolutions du monde extérieur, de tirer parti de leurs propres expériences et de se reprogrammer automatiquement. Ces techniques se développèrent dès les années 1940 et 1950, puis se perfectionnèrent dans les années 1980, avant de connaître un nouvel essor à partir de 2010.

Différents types d’apprentissage machine

On distingue usuellement au moins trois types d’apprentissage machine : l’apprentissage par renforcement, l’apprentissage supervisé et l’apprentissage non supervisé.

L’apprentissage par renforcement suppose que, lors de ses pérégrinations, un agent (entité qui agit de façon autonome) reçoit des récompenses ou des punitions en fonction des actions qu’il exécute. Il s’agit alors d’établir automatiquement, à partir des retours d’expérience, des stratégies d’action des agents qui maximisent l’espérance de récompenses. Ces techniques développées depuis la fin des années 1950 ont fait leurs preuves à la fois dans le domaine des jeux et dans celui de la robotique.

L’apprentissage supervisé suppose que l’on donne des exemples étiquetés, comme des images de lettres manuscrites avec le nom de la lettre correspondante (étiquettes a, b, Z…). L’apprentissage consiste alors à construire une fonction capable de déterminer la lettre de l’alphabet à laquelle se rapporte chaque image. Cette forme d’apprentissage a fait des progrès considérables ces dernières années.

Enfin, le dernier type d’apprentissage repose sur un ensemble d’exemples non étiquetés que l’on cherchera à structurer en rassemblant les exemples apparemment les plus proches et en les distinguant de ceux qui en paraissent éloignés. Il s’agit donc, pour la machine, de pouvoir organiser des connaissances et acquérir des notions nouvelles. Ainsi, pour un ensemble d’instruments de musique, on peut chercher à ce que la machine construise automatiquement des catégories en distinguant, par exemple, les instruments à cordes, à vent, à percussion puis, parmi les cordes, les cordes pincées, frappées, frottées, etc.

L’apprentissage supervisé recourt à des techniques variées fondées sur la logique ou la statistique et s’inspirant de modèles psychologiques, physiologiques ou éthologiques. Parmi celles-ci, des techniques anciennes reposant sur un modèle très approximatif du tissu cérébral – les réseaux de neurones formels – ont obtenu depuis les années 2010 des performances remarquables en traitant de très grandes quantités d’information que l’on qualifie en français de masses de données, et en anglais de big data. Ce sont elles que l’on range sous le vocable d’apprentissage profond, ou deep learning. Elles recourent toutes à de la rétropropagation de gradient (algorithme permettant l’apprentissage de la machine et utilisant les réseaux de neurones). Notons cependant qu’il existe d’autres techniques d’apprentissage supervisé qui n’utilisent pas de réseaux de neurones formels et, à plus forte raison, pas de rétropropagation de gradient.

Réseaux de neurones formels

L’histoire des réseaux de neurones formels remonte à 1943, avant même la construction des premiers ordinateurs électroniques, alors que l’on commence seulement à fabriquer des calculateurs électromécaniques au moyen de relais téléphoniques. L’idée de dresser un parallèle entre ces machines et le cerveau humain traverse les pensées du mathématicien américain Walter Pitts (1923-1969) qui, âgé d’à peine vingt ans à l’époque, écrit avec le neurophysiologiste américain Warren McCulloch (1898-1969), un article intitulé « A logical calculus of immanent ideas in nervous activity » (« Un calculateur logique des idées immanentes dans l'activité nerveuse »). Ils y établissent une analogie entre, d’un côté, ces relais téléphoniques et les cellules du cerveau – les neurones – et, d’un autre côté, les connexions entre ces relais téléphoniques et les liaisons dites synaptiques qui relient les neurones entre eux. Pour résumer ces analogies, on appelle « neurones formels » ces relais téléphoniques, et « synapses formelles » leurs connexions. Afin de mimer les phénomènes biologiques dits de « plasticité synaptique » qui affectent la plus ou moins grande connectivité de l’influx nerveux entre les neurones et qui se trouvent à l’origine de l’apprentissage physiologique, on module les synapses formelles d’un nombre plus ou moins grand que l’on appelle le « poids synaptique » et qui joue sur l’intensité de la transmission d’information entre les neurones formels.

Outre la description de cette analogie, McCulloch et Pitts démontrent qu’en organisant ces neurones formels en trois couches, et en connectant les neurones formels de chaque couche avec des neurones formels de la couche suivante par des synapses formelles dont on ajuste correctement les poids synaptiques, on peut réaliser n’importe quelle fonction logique. Ce théorème d’universalité est essentiel.

Apprentissage des poids synaptiques

Toutefois, même si de tels réseaux de neurones formels organisés en trois couches permettent de réaliser n’importe quelle fonction logique, il convient de configurer les liaisons synaptiques entre les neurones formels, autrement dit d’associer à chacune de ces liaisons un nombre, ce qui serait extrêmement fastidieux, voire inextricable manuellement, si l’on ne disposait pas de procédures d’apprentissage. On cherche donc, dès le début des années 1950, à élaborer des techniques pour établir automatiquement les pondérations des liaisons entre les synapses formelles en mimant les phénomènes d’apprentissage neuronal.

Pour cela, on recourt à l’apprentissage supervisé en donnant à une machine des exemples étiquetés et en faisant en sorte qu’elle ajuste automatiquement les poids des synapses formelles pour retrouver automatiquement les étiquettes des exemples. À titre d’illustration, si l’on donne des formes géométriques à la machine, on lui indique pour chacune qu'il s’agit d’un losange, d’un carré, d’un pentagone, d’un cercle, d’une ellipse, etc. Et on espère qu’elle sera ensuite en mesure de distinguer automatiquement ces types de formes, après lui avoir donné suffisamment d’exemples ainsi étiquetés.

Le perceptron

En 1957, un psychologue américain, Frank Rosenblatt (1928-1971), met au point un algorithme d’apprentissage pour des réseaux de neurones formels à deux couches qu’il appelle des « perceptrons », car ils reproduisent selon lui les capacités de perception des rétines.

Or, si Walter Pitts avait bien montré que les réseaux de neurones à trois couches pouvaient réaliser n’importe quelle fonction logique, il n’en va pas de même pour les réseaux à deux couches, tant s’en faut. En 1969, Marvin Minsky (1927-2016) démontre que la procédure d’apprentissage décrite par Frank Rosenblatt n’apprend que des fonctions très simples, dites linéairement séparables. Ainsi une fonction logique aussi élémentaire qu’un « ou » exclusif – qui vaut 1 si l’une de ses deux entrées est égale à 1 et l’autre à 0, et 0 sinon – ne saurait être réalisée, et a fortiori apprise, sur un perceptron à deux couches.

Rétropropagation de gradient

Il a fallu attendre le début des années 1980 pour que des mathématiciens généralisent le principe d’apprentissage des perceptrons et conçoivent, en s’inspirant de principes mathématiques issus de la physique statistique, une procédure capable d’apprendre sur des réseaux de neurones à plusieurs couches. En termes techniques, on appelle cette procédure la rétropropagation du gradient. Quelques années plus tard, d’autres mathématiciens cherchèrent à déterminer les fondements théoriques de cet apprentissage avec, entre autres, la théorie statistique de l’apprentissage. Cela les conduisit à développer d’autres techniques d’apprentissage supervisé inspirées des principes mathématiques de l’apprentissage sur les réseaux de neurones formels, comme ce que l’on appelle les machines à vecteurs de support (support vector machines) et les machines à noyaux (kernel machines), qui furent bien souvent utilisées dans les années 1990 et au début des années 2000 pour effectuer de l’apprentissage supervisé dans de multiples champs d’applications comme la reconnaissance de caractères manuscrits, de visages ou de la parole.

Réseau de neurones formels

Réseau de neurones formels

dessin

Ce dessin représente un réseau de neurones formels avec entrées, p sorties et j couches. 

Crédits : Encyclopædia Universalis France

Afficher

Succès de l’apprentissage profond

En parallèle, des chercheurs comme le Français Yann LeCun continuent avec ténacité à perfectionner l’apprentissage sur des réseaux de neurones formels. Pour cela, ils recourent à la grande puissance de calcul des machines, à un très grand nombre de liaisons synaptiques – de l’ordre de plusieurs centaines de milliers, voire de quelques millions – et surtout à de multiples couches de neurones formels – entre 10 et 15 – dont certaines restent « figées » – en ce sens que les poids des liaisons synaptiques les connectant à d’autres couches y demeurent fixes – tandis que d’autres évoluent par apprentissage. En raison de cette multiplicité de couches, on caractérise ces techniques comme de l’apprentissage profond. En 2010, la comparaison des capacités d’apprentissage du deep learning avec celles des autres techniques d’apprentissage supervisé, en particulier des machines à vecteurs de support et des machines à noyaux, sur des tâches de reconnaissance d’images, a montré que les techniques d’apprentissage profond apprennent de façon efficace sur de très grandes quantités d’exemples tout en surpassant notablement les performances des autres techniques. Cela explique leur popularité actuelle.

Applications de l’apprentissage profond

Ainsi, en entraînant par apprentissage profond des algorithmes de reconnaissance faciale sur 200 millions d’images de visages, le système FaceNet de la société Google obtient un taux d’identification correcte de 99,63 p. 100. Le nombre d’applications potentielles de l’apprentissage profond est immense. C’est la raison pour laquelle cette méthode d’apprentissage s’est imposée ces dernières années. Ces techniques permettent d’améliorer la reconnaissance d’images en général et de créer des applications pour la biométrie (reconnaissance d’empreintes digitales ou d’iris), la médecine (avec, par exemple, le diagnostic de mélanomes à partir d’images de grains de beauté et l’analyse de radiographies), la voiture autonome (reconnaissance d’obstacles, de véhicules, de panneau de signalisation, etc.), par exemple. Elles permettent aussi d’améliorer la reconnaissance de la parole, avec des systèmes comme Siri, ou le profilage des individus, pour la recommandation et la publicité ciblée, ou encore les logiciels de jeux, comme on l’a vu en mars 2016 lorsque le programme informatique AlphaGo l’a emporté sur Lee Sedol, l’un des meilleurs joueurs mondiaux de go, en ayant fait appel à de l’apprentissage profond et à de l’apprentissage par renforcement. Enfin, et surtout, les techniques d’apprentissage supervisé aident à anticiper le futur sur la base du passé, ce qui permet d’évaluer, avec une précision inconnue auparavant, les risques potentiels d’investissements, d’accidents, de maladies, etc. Or, la prédiction aide à prendre des décisions en calculant les conséquences les plus probables de chaque action. De ce fait, les systèmes prédictifs recourant à de l’apprentissage profond jouent un rôle de plus en plus important dans le monde contemporain où on les utilise pour trancher dans les situations délicates à la place des hommes. C’est ce qui conduit certains à parler aujourd’hui de « gouvernementalité algorithmique » pour évoquer, et bien souvent déplorer, une politique qui éluderait toute responsabilité en confiant à des machines, entraînées par apprentissage profond sur d’immenses masses de données, le soin de décider.

Limites de l’apprentissage profond

En dépit des succès impressionnants qu’ils enregistrent et des bouleversements sociaux qu’ils induisent – via les applications qui en sont faites et qui permettent de remplacer beaucoup d’activités routinières –, ces techniques souffrent d’un certain nombre de limitations qui en restreignent les potentialités.

Les premières limitations tiennent à la grande quantité d’exemples nécessaires pour obtenir de très bonnes performances et au besoin d’étiqueter ces exemples. Or, l’étiquetage requiert une intervention humaine très coûteuse, d’autant plus que les exemples doivent être massifs (plusieurs centaines de milliers, voire plusieurs millions d’instances).

Il existe aussi une limitation intrinsèque à l’apprentissage supervisé qui tient au langage de description des exemples : celui-ci demeure figé et ne peut s’accroître automatiquement. Or, ce que le philosophe américain et historien des sciences Thomas Kuhn (1922-1996) appelle des « révolutions scientifiques », ou ce que le Français Gaston Bachelard (1884-1962) décrit comme des ruptures épistémologiques, passe par l’introduction de nouvelles notions qui viennent bousculer les conceptions anciennes et changer les systèmes de représentation – comme l’ont fait par exemple, en leur temps, le passage du système géocentrique (Terre au centre de l’Univers et immobile) de Ptolémée au système héliocentrique de Copernic (Soleil au centre de l’Univers et immobile) ou celui de la représentation newtonienne du temps à celle d’Einstein et de la relativité. Pour reprendre les termes de Thomas Kuhn, si les techniques d’apprentissage profond permettent d’automatiser en partie la « science normale », elles sont incapables de procéder à des changements de paradigmes.

—  Jean-Gabriel GANASCIA

Bibliographie

W. Mc Culloch & W. Pitts, « A logical calculus of the ideas immanent in neuron activity », in Bulletin of Mathematical Biophysics, 1943

Y. LeCun, Y. Bengio & G. Hinton, « Deep learning », in Nature, vol. 521, 436-444, 2015

M. Minsky & S. Papert, Perceptrons, MIT Press, Cambridge (Mass.), 
1969

F. Rosenblatt, « The perceptron: A probabilistic model for information 
storage and organization in the brain », in Psychological Review, vol. 65, no 6, 386-408, 1958.

Écrit par :

Classification


Autres références

«  APPRENTISSAGE PROFOND ou DEEP LEARNING  » est également traité dans :

APPRENTISSAGE, psychologie

  • Écrit par 
  • Daniel GAONAC'H, 
  • Jean-François LE NY
  •  • 5 933 mots
  •  • 2 médias

Dans le chapitre « Depuis les années 1990 »  : […] avec celles qui, en intelligence artificielle, s’appuient sur l’exploitation d’un très grand nombre de données empiriques (big data) : plutôt que d’« instruire » la machine par des règles définies a priori, on cherche à ce que celle-ci se fonde, pour progresser dans ses apprentissages, sur les régularités […] Lire la suite☛ http://www.universalis.fr/encyclopedie/apprentissage-psychologie/#i_57034

Voir aussi

Pour citer l’article

Jean-Gabriel GANASCIA, « APPRENTISSAGE PROFOND ou DEEP LEARNING », Encyclopædia Universalis [en ligne], consulté le 15 septembre 2018. URL : http://www.universalis.fr/encyclopedie/apprentissage-profond-deep-learning/