HUMANITÉS NUMÉRIQUES

Carte mentale

Élargissez votre recherche dans Universalis

Médias de l’article

Méthodes de modélisation et de traitement des données : villa de Diomède

Méthodes de modélisation et de traitement des données : villa de Diomède
Crédits : Villa Diomedes Project (http://villadiomede.huma-num.fr/3dproject/). Réalisation Alban-Brice Pimpaud (archeo3d.net).

photographie

Portrait d’Edmond de Belamy

Portrait d’Edmond de Belamy
Crédits : obvious-art.com

photographie


Les humanités numériques renvoient à un ensemble de pratiques utilisant le numérique – ou, plus précisément, une approche informatisée – pour l’analyse de données dans différents domaines des lettres, des sciences humaines (archéologie, philosophie, histoire…) et des sciences sociales (économie, sociologie, sciences politiques…), c’est-à-dire ce qu’on appelle fréquemment les « SHS » (sciences humaines et sociales). La question du périmètre exact de ce domaine a donné lieu à de nombreux débats (Terras et al., 2013), de même que la question de savoir si les humanités numériques constituent un domaine scientifique en soi, sachant que tous les secteurs des lettres et sciences humaines sont potentiellement concernés (c’est-à-dire l’ensemble de ce que recouvre le terme humanities en anglais, d’où l’expression « humanités numériques » en français, qui est à l’origine un calque de l’anglais Digital Humanities). On s’accorde aujourd’hui à considérer les humanités numériques comme renvoyant avant tout à une communauté de pratiques autour d’approches informatisées pour l’analyse des données en lettres et SHS.

Il peut dès lors être utile de distinguer deux approches. Une partie importante du domaine des humanités numériques consiste à rendre disponible, de préférence grâce à des éditions de référence, des corpus fondamentaux pour la culture d’aujourd’hui. Il peut s’agir aussi bien de corpus de textes littéraires que de manuscrits historiques, de collections d’images ou de partitions de musique. Le choix des documents, leur édition et les modes d’accès disponibles en ligne sont des activités relevant des humanités numériques, mais on peut dire que le numérique y a une part secondaire. Dans ce cadre, l’utilisation de l’informatique vise à favoriser la mise au point d’éditions numériques avancées pour l’enseignement ou la recherche, mais le travail fondamental reste humain, que ce soit pour l’édition, la validation ou la consultation. Ce type de pratiques fait aujourd’hui partie de la formation classique de la plupart des universités (qu’il s’agisse d’histoire, de littérature ou d’économie) et elles sont graduellement intégrées à la formation de base des chercheurs dans ces domaines.

Une autre partie de la communauté des humanités numériques conduit des recherches afin d’utiliser les données massives aujourd’hui disponibles dans les domaines cités (lettres et SHS) pour en faire émerger des tendances et des faits nouveaux, qu’il serait quasiment impossible de découvrir sans ordinateur. Les faits analysés exigent souvent le recours à des algorithmes et des techniques d’analyse inédites pour étudier de façon originale les données, ou pour vérifier des hypothèses qui ne pourraient être que difficilement validées par une analyse humaine des données. Ce courant de recherche est parfois appelé computational humanities pour le distinguer de l’approche précédente, centrée sur l’édition et la mise à disposition des données. Les deux approches sont en fait complémentaires, les analyses fines de type informatique (computational humanities) nécessitant, autant que possible, des corpus soigneusement encodés et annotés.

Histoire du domaine

On l’a dit, les humanités numériques concernent les analyses, dans le domaine des lettres et des SHS, conduites avec des moyens informatiques. Dès le début, l’informatique a été considérée comme un outil extrêmement puissant pour mener à bien des tâches mécaniques et peu intéressantes. Les chercheurs travaillant sur des sources textuelles ont ainsi souvent besoin de « concordances », ce qui consiste à faire un relevé exhaustif de toutes les occurrences d’un mot ou d’une expression donnée, pertinente pour une question de recherche précise, dans un corpus de référence. Il s’agit d’une tâche extrêmement fastidieuse si elle est menée à la main. Dès le début du xxe siècle, différentes « machines mécaniques » ont été imaginées pour indexer les textes, retrouver les différentes occurrences d’un mot ou produire automatiquement des concordances, mais ces quelques tentatives n’ont jamais abouti à des systèmes mécaniques réellement opérationnels. Après la Seconde Guerre mondiale, l’informatique est venue ouvrir de nouvelles perspectives.

Le jésuite italien Roberto Busa (1913-2011) est souvent considéré comme le père du domaine des humanités numériques (Jones, 2018). Dès 1949, il a lancé en partenariat avec la société IBM un projet de création d’index autour de l’œuvre de saint Thomas d’Aquin, appelé l’Index thomisticus. Plus récemment, il a été souligné, à juste titre, que Busa n’était pas seul dans cette entreprise, car son projet avait en fait bénéficié d’une très importante main-d’œuvre féminine, restée longtemps ignorée. Dans les décennies qui suivirent, de très nombreuses équipes, un peu partout dans le monde, ont utilisé l’approche informatique pour mettre au point non seulement des éditions de référence d’œuvres majeures, mais aussi des index des concordanciers ainsi que les outils nécessaires pour produire des analyses statistiques à partir de textes, que ce soit en littérature, en histoire ou en archéologie. Par exemple, le projet Thesaurus Linguae graecae® (http://stephanus.tlg.uci.edu/) a été lancé par l’université de Californie à Irvine dès 1972, et a permis en quelques années de disposer d’un ensemble très important de textes grecs sur support informatique (l’équivalent a été réalisé indépendamment pour le latin). Il est intéressant de noter que les textes n’étaient pas numérisés (la technologie n’existant pas dans les années 1960) mais saisis à la main par des ouvriers non qualifiés en Asie du Sud-Est, qui n’avaient aucune connaissance des langues qu’ils transcrivaient.

En parallèle, dès les années 1950 et surtout 1960, des équipes travaillent à la mise au point de corpus en propre (c’est-à-dire de données textuelles assemblées dans un but et suivant des critères précis), notamment pour conduire des études linguistiques. Il peut s’agir d’examiner le sens des mots à partir d’exemples réels (en lexicologie ou pour la mise au point de dictionnaires) ou de mettre en lumière les différences linguistiques entre groupes d’individus (ce que l’on appelle la sociolinguistique). En 1959, Randolph Quirk lance ainsi le Survey of English Language (https://www.ucl.ac.uk/english-usage/), une collection d’enregistrements et de transcription de différentes variétés d’anglais, ce qui donnera ultérieurement naissance au British National Corpus (1991, http://www.natcorp.ox.ac.uk/), un corpus de référence pour l’analyse de la langue anglaise. La Grande-Bretagne devient ainsi, à partir des années 1960, un des centres majeurs pour la « linguistique de corpus », c’est-à-dire l’analyse de la langue à partir de données attestées et méthodiquement assemblées sur support informatique (Léon, 2015).

Le traitement automatique des langues, qui se développe en parallèle mais de manière largement indépendante, fournit de son côté des outils d’analyse permettant d’interroger les corpus de manière plus précise. Le but est de pouvoir « interroger » un texte non plus simplement à partir des formes de surface, mais à partir des lemmes ou des catégories morphosyntaxiques. Il s’agit, par exemple, de retrouver toutes les occurrences d’un mot dans un texte à partir de sa forme canonique, quelle que soit la forme employée dans le texte ; on pourra ainsi retrouver « verte », « verts » et « vertes » à partir de « vert » ou « fait », « faisons » et « fera » à partir de « faire ». Contrairement à ce qu’on pourrait penser, ce niveau d’analyse est loin d’être trivial et continue de susciter de multiples problèmes.

Les premières revues spécialisées dans les sciences humaines numériques datent précisément des années 1960. On mentionnera Computers and the Humanities, lancée en 1966. L'association Computer Applications & Quantitative Methods in Archaeology (CAA) est fondée en 1973. L'Association pour l'informatique littéraire et linguistique (ALLC ; Association for Literary and Linguistic Computing) et l'Association pour l'informatique et les sciences humaines (ACH, Association for Computer and the Humanities) ont ensuite été fondées respectivement en 1977 et 1978. En France, on peut citer la revue Mots. Les langages du politique, créée en 1980 par un groupe de chercheurs autour de Maurice Tournier, revue qui vise en premier lieu l’analyse du langage politique par une analyse informatisée du vocabulaire et des expressions contenues dans des corpus soit politiques, soit syndicaux.

On assiste ainsi, dès le début, à un double mouvement, d’une part vers l’édition électronique (dans la tradition de Roberto Busa), et d’autre part vers des traitements informatisés des données textuelles (dans la tradition de la linguistique de corpus). Le premier courant requiert des formats adaptés, des standards d’encodage avancés permettant de tenir compte du type et de la nature des textes étudiés. C’est ainsi qu’est née à la fin des années 1980 la Text Encoding Initiative (TEI, https://tei-c.org/), une norme d’encodage des textes permettant de rendre compte de manière très fine de nombreux types de documents : poésie, théâtre, documents historiques, etc. La TEI était encodée au début suivant le standard SGML (Standard Generalized Markup Language, un langage de description documentaire désormais obsolète), avant de passer au langage XML (Extensible Markup Language, devenu le standard pour la structuration de documents), ce qui rend la norme très facilement manipulable avec des outils standards (XML marche de pair avec de nombreux outils de transformation de format et de présentation sur écran ou sur papier).

La TEI est définie de manière ouverte, à partir des propositions des nombreux contributeurs : au-delà du codage, elle constitue avant tout une communauté qui vise à définir un standard ouvert et gratuit, favorisant l’échange et la capacité de réutilisation. Cet aspect est important car l’ouverture et l’échange des données constituent des principes fondamentaux pour les humanités numériques en général : ils permettent notamment la reproductibilité des expériences menées sur les données, ce qui garantit le sérieux des résultats et leur remise en cause si cela se révèle nécessaire.

À partir des années 1990, le développement du Web a été concomitant du développement des ordinateurs personnels et de l’augmentation exponentielle de la puissance de calcul. Ces trois phénomènes réunis ont permis, d’une part d’avoir accès à des données massives, avec un ordre de magnitude jamais imaginé jusque-là, et d’autre part de concevoir de nouveaux modèles informatiques plus performants. On citera ainsi l’initiative de Google appelée Google Livres, lancée en 2004. Elle visait originellement à numériser tous les livres disponibles de par le monde, grâce à des accords avec les éditeurs et avec les grandes bibliothèques nationales ou régionales. À travers ce programme, Google a créé une collection unique, par son contenu et par sa taille, sans se montrer toujours très regardant quant aux droits d’auteur. Cette collection a permis des travaux originaux et jusque-là impossibles. Par exemple, J.-B. Michel et E. Aiden présentent, dans leur essai Culturama (2015), diverses études fondées sur des observations plus ou moins directes des données numérisées par Google. Ainsi, l’observation de la fréquence relative de « United States are » par rapport à « United States is » (c’est-à-dire l’accord du verbe au singulier ou au pluriel après « United States ») permet d’observer un point d’inflexion, vers les années 1860-1870, quand l’expression « United States is » devient majoritaire, ce qui peut laisser penser que le pays se considère alors davantage comme un État fédéral que comme un simple regroupement d’États indépendants. On comprend comment, à partir de simples manipulations opérées sur des données massives, il devient possible d’observer des faits signifiants sur le plan de l’histoire et de la culture. Une simplicité qui ne doit toutefois pas cacher la difficulté de l’opération : il faut savoir poser les bonnes questions et interpréter les données en corpus, tout en conservant un point de vue d’ensemble pour éviter les recherches trop parcellaires. L’absence de vision globale est d’ailleurs une des critiques qui ont été formulées contre les humanités numériques. L’ensemble des livres numérisés par Google est mis à la disposition des universitaires américains à travers une structure ad hoc appelée le HathiTrust, ce qui permet aux chercheurs d’outre-Atlantique d’avoir accès à des milliers d’ouvrages numérisés. Des études utilisant des méthodes avancées de traitement automatique des langues sont dès lors possibles, à l’instar de ce qu’ont proposé Michel et Aiden.

À ce stade, on peut souligner à nouveau l’opposition qui existe entre d’un côté des études s’appuyant en général sur de gros corpus, ayant recours à des techniques informatiques avancées mais souvent fondées sur des corpus peu structurés, voire incluant des fautes dues à la numérisation automatique, et de l’autre l’édition manuelle et très méticuleuse de corpus patrimoniaux, avec généralement de nombreux choix d’édition et un apparat critique fourni. Enfin, les recherches sur l’édition et l’analyse de sources textuelles ne doivent pas faire oublier d’autres recherches, conduites en archéologie ou en histoire de l’art par exemple, où ce sont des objets, des images ou des films qui sont manipulés.

Un champ de recherche résolument transdisciplinaire

Le domaine des humanités numériques recouvre des recherches variées, liées à des domaines très divers, avec des finalités et des approches elles aussi très diverses.

On peut par exemple citer le projet Time Machine. Lancé en 2012, le projet initial, Venice Time Machine (https://www.epfl.ch/research/domains/venice-time-machine/), est né d’une collaboration entre les Archives de la ville de Venise et l’EPFL (École polytechnique fédérale de Lausanne). Venise est une cité au passé incroyablement riche, avec d’immenses archives enregistrant de manière très précise l’histoire de la ville durant plusieurs siècles. Ces archives sont évidemment beaucoup trop volumineuses – et parfois trop fragiles – pour pouvoir être exploitées « à la main ». L’idée du projet Venice Time Machine était d’en numériser une partie conséquente et de l’analyser automatiquement pour la rendre plus facilement utilisable par les chercheurs et autres utilisateurs.

Les recherches conduites sur cette base peuvent par exemple viser à reconstituer l’histoire des personnes en consultant les registres familiaux, modéliser l’histoire et l’évolution d’un quartier par des représentations dynamiques à partir de plans ou de cartes, ou permettre de mieux comprendre l’économie de la ville par l’étude de ses registres du commerce. L’analyse n’est évidemment pas limitée au texte : les plans, les cartes et l’iconographie permettent de reconstituer l’histoire et l’apparence des différents quartiers de la ville, ou l’histoire des monuments. Le projet consiste en l’analyse de grandes masses de données, la reconnaissance de motifs textuels ou graphiques, la mise en correspondance d’informations hétérogènes. Des techniques d’analyse informatique avancées sont donc nécessaires : le projet intègre les techniques d’intelligence artificielle les plus récentes pour ce qui concerne l’analyse documentaire, le traitement automatique des langues ou l’analyse d’images. D’autres domaines sont aussi sollicités, comme la tomographie, une technique issue de l’imagerie médicale, qui peut aussi être utilisée pour l’analyse des manuscrits qui ne sont pas directement manipulables – par exemple des testaments datant d’il y a plusieurs siècles, se présentant sous la forme d’une feuille pliée à plusieurs reprises et aujourd’hui trop ancienne pour être dépliée. En reconnaissant le plomb contenu dans certaines encres anciennes, la tomographie peut permettre de déchiffrer l’écriture et ainsi d’accéder au contenu de certains documents autrement inaccessibles. Les progrès restent modestes (ils ne concernent que certains types de documents, avec peu de couches d’écriture, et utilisant de l’encre au plomb) mais la collaboration pourrait être importante à l’avenir.

Le projet Time Machine (https://www.timemachine.eu/) est quant à lui né en 2016, avec la volonté d’étendre le concept à d’autres villes avec plusieurs dizaines voire plusieurs centaines de partenaires au niveau européen. Il existe ainsi un Paris Time Machine (lancé en 2019, https://paris-timemachine.huma-num.fr/) qui pourrait, à terme, mettre en valeur les multiples collections de textes, d’images, de films et d’archives concernant Paris. Il s’agit évidemment d’un travail considérable, qui mobilise des dizaines d’équipes et qui pourrait aboutir à des résultats très concrets (travaux de recherche, bornes d’information grand public, aide à l’aménagement du territoire, etc.), fruit de collaborations larges avec des acteurs très divers.

Un autre projet, en partie similaire mais mêlant analyse d’image et archéologie cette fois, est celui de la villa de Diomède à Pompéi (villadiomede.huma-num.fr). Ensevelie lors de l’éruption du Vésuve en 79 après J.-C., cette villa peut être visitée, sur le site de Pompéi, mais il n’en reste que des vestiges. On en connaît toutefois de multiples représentations datant, pour les plus anciennes, du milieu du xviiie siècle. Ces représentations sont intéressantes car elles donnent des vues de la villa sous différents angles et à différentes périodes historiques. Mais ces différences les rendent justement difficiles à comparer et à utiliser. Une collaboration entre le département d’archéologie et le département d’informatique de l’École normale supérieure, engagée en 2012, a permis d’y remédier partiellement, en développant des techniques avancées permettant d’aligner et de superposer de manière semi-automatique les différentes vues. Le résultat est, un peu à l’instar de Time Machine, un système permettant de découvrir la villa à différentes époques en intégrant de manière dynamique les vues produites par différents artistes ou archéologues.

Méthodes de modélisation et de traitement des données : villa de Diomède

photographie : Méthodes de modélisation et de traitement des données : villa de Diomède

photographie

Cette vue du monument résume les différentes phases du programme de recherche conduit autour de la villa de Diomède, à Pompéi : modèle numérique produit en 2015 à partir de 25 000 photographies environ (modèle texturé, avec photographies, ou brut) ; projection dans ce modèle d'une... 

Crédits : Villa Diomedes Project (http://villadiomede.huma-num.fr/3dproject/). Réalisation Alban-Brice Pimpaud (archeo3d.net).

Afficher

Ces projets révèlent les liens étroits qui existent entre humanités numériques et techniques d’intelligence artificielle. Les principaux domaines sollicités sont le traitement automatique du langage naturel, l’analyse d’image (fixe ou animée), l’apprentissage artificiel (pour retrouver des motifs dans des données hétérogènes, par exemple des séquences musicales typiques de Beethoven ou des motifs textuels typiques des romans sentimentaux, Legallois et al., 2017). Le traitement automatique des langues et l’analyse d’image ont aussi recours aujourd’hui, de manière massive, aux techniques d’apprentissage artificiel et à l’analyse de réseaux (pour identifier les interactions et les échanges entre acteurs d’un domaine donné par exemple). Ces spécialités sont en étroite interaction les unes avec les autres : le traitement automatique des langues permet par exemple d’identifier des entités (noms de personnes, de lieux, terminologie d’un domaine), l’analyse d’image permet d’identifier des objets dans des images ; tous les éléments ainsi identifiés peuvent être mis en correspondance dynamiquement, grâce à d’importantes bases de données, et les interactions peuvent être modélisées grâce à l’analyse de réseaux. On peut ainsi chercher à représenter les polémiques sur Twitter (Qui parle de quoi ? À qui ? Comment évolue la discussion ?), les échanges économiques entre communautés villageoises au Moyen Âge (Qui vend quoi et à qui ?) ou la circulation des individus au sein d’une ville (Qui va où et avec quel moyen de transport ?). Si d’autres techniques, plus particulières, peuvent être mises en œuvre dans des contextes précis, comme la tomographie par exemple, les humanités numériques utilisent malgré tout en grande majorité des techniques standards ressortissant aux domaines qu’on a énumérés. Il faut enfin noter que l’analyse du langage ou l’analyse d’image, malgré des progrès importants, n’offre jamais que des résultats imparfaits, avec une marge d’erreur variable, surtout quand les données à analyser sont « bruitées », mal numérisées ou disposent d’une faible définition. L’adéquation des techniques au problème considéré, leur qualité effective et leur apport à un projet donné sont des points qui doivent toujours être évalués finement.

Humanités numériques, art et création

Parce que les humanités numériques permettent d’analyser de gros corpus, de les modéliser et d’en extraire des informations essentielles, triées et structurées, le domaine entretient des relations importantes avec la création et le monde de l’art. Si on sait aujourd’hui analyser automatiquement, par ordinateur, le style d’un auteur, la structure d’une œuvre ou son contexte, cela signifie qu’on sait aussi produire du contenu (des textes, des images, de la musique) à l’image du corpus analysé, par simple « imitation », en reprenant et combinant des motifs repérés dans les œuvres originales (Briot et Pachet, 2018).

Portrait d’Edmond de Belamy

photographie : Portrait d’Edmond de Belamy

photographie

Les humanités numériques investissent aussi le champ de la création. Une exposition, Artistes & Robots, lui a été consacrée en 2018 au Grand Palais (Paris). Autre symptôme de cet engouement, le tableau Portrait d'Edmond de Belamy, produit par un programme d'intelligence... 

Crédits : obvious-art.com

Afficher

L’exemple le plus parlant est peut-être la création de tableaux. Des équipes de recherche travaillent sur le sujet et des sociétés privées ont même commencé à investir un marché potentiellement lucratif. Ainsi, le tableau Portrait d'Edmond de Belamy, produit par un programme d’intelligence artificielle, a été vendu fin 2018 par Christie’s au prix de 430 000 dollars (https://www.christies.com/features/A-collaboration-between-two-artists-one-human-one-a-machine-9332-1.aspx). D’autres ventes de tableaux produits automatiquement, pour des montants moindres, ont été effectuées depuis. On peut toutefois se demander s’il s’agit là d’une bulle spéculative ou d’une nouvelle forme d’art.

Tous les autres domaines artistiques ont été explorés, notamment la musique (on peut aujourd’hui produire automatiquement de la musique « à la manière de Bach » ou « à la manière des Beatles »). On sait aussi générer automatiquement des textes qui semblent cohérents, au moins quand ils sont courts – par exemple des bulletins météo, des fake news ou, dans le domaine créatif, des poésies (Van de Cruys, 2019). Contrôler la sémantique et la logique d’un texte long demeure une tâche plus complexe, mais des progrès en ce sens sont accomplis régulièrement.

On est ici à la limite de ce que l’on appelle les humanités numériques, mais on voit les liens très forts qui unissent celles-ci à l’intelligence artificielle, dans la mesure où produire des œuvres « crédibles » suppose de disposer de techniques performantes pour l’analyse des œuvres existantes. L’existence d’œuvres produites automatiquement pose surtout des questions éthiques et philosophiques intéressantes. Présentent-elles un intérêt esthétique ? Dans quelle mesure une machine peut-elle être dite « créative » ? Et surtout, la machine peut-elle dépasser le stade de la simple imitation pour développer une originalité qui lui soit propre ? Ces questions sont aussi importantes d’un point de vue cognitif car on sait très peu de choses sur la créativité humaine et sur les processus à l’œuvre pour « sortir du cadre », c’est-à-dire aller au-delà du simple collage de bribes de textes ou d’images de manière à créer de nouvelles métaphores ou de nouveaux tableaux.

Débats et critiques

Les humanités numériques ont suscité nombre de débats et de critiques, comme il est logique pour un nouveau domaine de recherche (voir https://revolt.hypotheses.org/1848, pour un panorama récent). On a pu souligner le caractère flou et mouvant des humanités numériques, domaine qui a tendance à regrouper des recherches très variées, voire hétérogènes. Nous avons nous-mêmes souligné ici que la réalité des humanités numériques en tant que domaine scientifique méritait d’être discutée. Ce domaine est surtout marqué par un ensemble de pratiques très diverses et parfois en passe de devenir standards. Par exemple, l’édition des textes, désormais, implique quasiment toujours l’usage de l’ordinateur : ce domaine fait toujours partie des humanités numériques mais la simple utilisation d’un ordinateur ne constitue pas un motif différenciateur suffisant. Il s’agit là d’une évolution naturelle des pratiques d’un domaine devenues standards.

D’autres critiques, plus fondamentales, portent sur le côté parfois dérisoire ou « superficiel » des recherches estampillées « humanités numériques ». Pour les détracteurs du domaine, elles consistent à repérer quelques tendances ou phénomènes typiques, souvent sans grand intérêt ; ou bien les recherches aboutissent le plus fréquemment à des trouvailles triviales et connues auparavant, à l’image de celles de « chasseurs de papillons », collectionnant des phénomènes rares et remarquables, mais n’ayant aucune idée de la structure d’un problème et des vraies sources d’explication. Ces remarques ne sont pas à balayer d’un revers de main : certaines recherches semblent effectivement se justifier par le simple usage de l’ordinateur, sans réel fond théorique, ce qui est évidemment problématique. Beaucoup d’études s’arrêtent à des observations de surface ou à des considérations secondaires. À ce propos, il faut remarquer qu’il en va probablement de même dans tous les domaines scientifiques : il existe assurément des résultats plus spectaculaires que d’autres, avec des enjeux théoriques plus importants, mais cela ne suffit pas à remettre en cause un domaine de recherche, qu’il s’agisse des humanités numériques ou de tout autre domaine scientifique. Enfin, pour ce qui est de retrouver des résultats connus auparavant, c’est un point qui doit être assumé. La notion de reproductibilité est essentielle en science, et c’est sans doute un aspect pour lequel les humanités numériques peuvent apporter un bénéfice en promouvant la tendance actuellement forte en faveur d’une science ouverte où les hypothèses, les données et le code développé pour un projet particulier sont rendus publics et facilement réutilisables. Cette approche peut permettre d’affermir certaines propositions, en appliquant à des œuvres ou à de gros corpus des hypothèses et des traitements conçus à l’origine pour des corpus plus modestes.

D’autres débats ont porté sur le manque de diversité, parmi les chercheurs du domaine des humanités numériques, mais aussi et surtout concernant les corpus étudiés. Les recherches en humanités numériques requièrent d’avoir accès à des infrastructures informatiques importantes (bibliothèques, archives, infrastructures de calcul), si bien que les universités les moins dotées ne peuvent souvent pas y participer. Pour ce qui concerne les thèmes étudiés, il faut toutefois noter que l’accent est de plus en plus mis sur la diversité, par exemple à travers l’étude des minorités ethniques, politiques ou culturelles. Ainsi, la principale conférence du domaine, Digital Humanities, organisée en 2020, encourageait dans son appel à communications les propositions « en rapport avec les sujets et sous-disciplines qui nous intéressent au premier plan : études des Premières Nations, études des Native Americans, études indigènes ; humanités numériques publiques ; mouvement des données ouvertes (open data) ». Néanmoins, il n’est pas sûr que ce volontarisme suffise à résoudre les questions liées au manque de diversité du domaine.

Les humanités numériques sont aussi inséparables des questions de droits sur les données et les contenus. Nous avons cité plus haut le cas de Venice Time Machine, un partenariat entre la ville de Venise et l’EPFL en Suisse. Les Archives de Venise ont interrompu leur collaboration fin 2019, n’ayant pu parvenir à un accord sur l’utilisation des données, l’accès aux outils développés et le bénéfice partagé du projet. Le monde des humanités numériques, comme la plupart des acteurs scientifiques aujourd’hui, prône une science ouverte, avec des licences claires sur les données et les outils, pour favoriser la capacité de réutilisation, la reproductibilité, mais aussi pour éviter les conflits liés à des droits souvent insuffisamment détaillés et négociés. Sans aller jusqu’à ces extrémités, le domaine reste fragile et soumis à des injonctions contradictoires, entre données très protégées (livres sous droit, corpus Internet où il est impossible d’obtenir l’adresse et les coordonnées des auteurs de chaque page Web) et des outils parfois propriétaires.

Enfin, certains ont vu dans les humanités numériques une simple question de mode, capable d’attirer les financements et accusée d’assécher les autres domaines, en particulier les lettres et les sciences sociales. C’est effectivement un risque auquel il faut être sensible, les financements étant toujours une question délicate. Ici comme ailleurs, on ne peut que souhaiter la préservation d’une certaine diversité, aussi bien concernant les sujets d’étude que les approches utilisées. Il est évident que les humanités numériques ne doivent pas se développer au détriment d’autres approches plus traditionnelles.

Les humanités numériques constituent un domaine vaste et bouillonnant, fondé sur l’idée que les techniques informatiques d’analyse du contenu (texte, image ou son) sont actuellement assez performantes pour être appliquées à de gros corpus en SHS et peuvent permettre de faire des observations et d’obtenir des résultats difficilement atteignables autrement. Le domaine est très lié au développement des méthodes d’apprentissage artificiel, et c’est l’un de ses attraits : les humanités numériques proposent une approche multidisciplinaire qui brise la frontière, artificielle mais très prégnante, entre sciences dures et sciences humaines. Si elles s’attirent parfois la méfiance et les critiques, elles suscitent aussi un engouement. On verra par la suite si ce secteur continue de se développer comme un nouveau domaine de recherche avec ses propres thématiques, ou si les domaines traditionnels (histoire, littérature, philosophie…) intègrent progressivement ces techniques informatiques à leur propre cursus, ce qui est d’ailleurs déjà en partie le cas.

—  Thierry POIBEAU

Bibliographie

J.-P. Briot & F. Pachet, « Music Generation by Deep Learning, Challenges and Directions », 2018 (https://arxiv.org/pdf/1712.04371.pdf)

H. Dessales dir., The Villa of Diomedes. The making of a Roman villa in Pompeii, Hermann, Paris, 2020

S. E. Jones, Roberto Busa, S. J., and the Emergence of Humanities Computing, Routledge, Londres, 2016

D. Legallois, T. Charnois & T. Poibeau, « Repérer les clichés dans les romans sentimentaux grâce à la méthode des "motifs" », in Lidil no 53, 2016 (doi : https://doi.org/10.4000/lidil.3950)

J. Léon, Histoire de l’automatisation des sciences du langage, ENS Éditions, Lyon, 2015

J.-B. Michel & E. Aiden, Culturama. Qui n'a jamais rêvé d'avoir lu tous les livres ?, Robert Laffont, Paris, 2015

M. Terras, J. Nyhan & E. Vanhoutte, Defining Digital Humanities: A Reader, Ashgate (Digital Research in the Arts and Humanities), Londres, 2013

T. Van de Cruys, « La génération automatique de poésie en français », Actes de la conférence « Traitement automatique des langues », Toulouse, 2019 (http://www.timvandecruys.be/media/papers/vandecruys_taln2019.pdf).

Écrit par :

Classification

Autres références

«  HUMANITÉS NUMÉRIQUES  » est également traité dans :

ANTHROPOLOGIE VISUELLE

  • Écrit par 
  • Damien MOTTIER
  •  • 4 464 mots

Dans le chapitre « Devenir-archives »  : […] Du plaidoyer de Félix Regnault pour la constitution d’un « musée de films » (1912) à la résolution adoptée à Chicago en 1973 en faveur de l’anthropologie visuelle, l’une des principales justifications de l’usage de la photographie et du film en anthropologie a toujours été, selon les mots de Margaret Mead, « la nécessité d’enregistrer de toute urgence un monde qui disparaît » (1975). Le présupposé […] Lire la suite

ÉDITION ÉLECTRONIQUE

  • Écrit par 
  • Alexandra SAEMMER
  •  • 3 999 mots
  •  • 3 médias

Dans le chapitre « L’édition en ligne »  : […] Hybride, ouverte et interconnectée, l’édition en ligne englobe aujourd’hui la plupart des productions éditoriales numériques. Le livre numérique se connecte au réseau, du moins pendant la phase de téléchargement, et de façon constante si le lecteur utilise les fonctionnalités d’annotation collective ou de commentaire. Il en est de même pour le jeu vidéo, dont beaucoup d’émanations sont aujourd’hui […] Lire la suite

LINGUISTIQUE - Le langage au carrefour des disciplines

  • Écrit par 
  • Catherine FUCHS
  •  • 10 045 mots
  •  • 5 médias

Dans le chapitre « L'enseignement des langues  »  : […] En matière d'enseignement des langues , il convient de distinguer trois cas : l'enseignement de la langue maternelle, celui d'une langue seconde dans un cadre de bilinguisme et celui d'une langue étrangère. L'enseignement de la langue maternelle, chez le jeune enfant, concerne d'abord l'acquisition de la lecture et de l'écriture : les connaissances requises pour l'élaboration des méthodes d'appren […] Lire la suite

Voir aussi

Pour citer l’article

Thierry POIBEAU, « HUMANITÉS NUMÉRIQUES », Encyclopædia Universalis [en ligne], consulté le 18 septembre 2020. URL : https://www.universalis.fr/encyclopedie/humanites-numeriques/