Apprentissage machine: Mythes et réalités

By Sydney Bubis, Architecte d'information sénior - février 22, 2022

Dans le domaine de la classification automatique des documents, on a tendance à croire que l’apprentissage automatique est toujours l’approche idéale pour automatiser la classification du contenu. De plus, on pense que cette approche peut facilement être adaptée aux fonds de contenu électronique d’une organisation, en automatisant la classification de contenu hérité des décennies d’accumulation d’information. Cela peut sembler raisonnable, mais les choses ne sont pas aussi simples. Dans cet article, j’aborde certains mythes et réalités de l’état actuel de l’apprentissage machine dans le domaine de la classification de contenu électronique.

Mythe 1 : L’apprentissage machine convient à chaque élément de métadonnées.

Dans l’état actuel de l’apprentissage machine dans le domaine de la classification de contenu électronique, il est plus approprié avec des champs qui ont quinze valeurs potentielles ou moins. À mesure que vous passez à des taxonomies plus complexes, l’efficacité de cette approche et la complexité de la formation et de la création d’un modèle de classification prédictif précis diminuent. Pour que cette méthode soit efficace, il faut qu’il y ait des différences statistiques claires entre les documents ayant des étiquettes/valeurs différentes. Si ce n’est pas le cas, la précision de l’apprentissage machine sera plus faible. En outre, la précision diminue à mesure que le nombre de termes, sur lequel vous entraînez l’algorithme, augmente. Si vous avez une facette avec des centaines de termes, l’apprentissage machine tel qu’il existe actuellement n’est pas adapté. Cette situation pourrait évoluer avec les progrès technologiques, mais nous n’en sommes pas encore là.

Cela dit, décider où utiliser l’apprentissage machine implique d’analyser vos éléments de métadonnées et d’identifier les éléments qui conviendraient. Les listes de termes très compliquées ne sont pas forcément de bons candidats. En outre, l’apprentissage machine avec des documents très similaires en fonction de différentes valeurs dans votre liste de termes fournira une précision inférieure à celle que vous souhaitez.

Mythe 2 : L’apprentissage machine est la seule forme raisonnable d’automatisation de la classification du contenu.

Différents domaines se prêtent à différentes approches pour la classification automatique du contenu. Dans certains cas, l’apprentissage machine est approprié. Dans d’autres cas, une approche de type architecture de la connaissance, identifiant des règles explicites à l’aide d’expressions régulières, peut fournir des résultats beaucoup plus précis, en identifiant l’existence de concepts dans les documents. Cela nécessitera une analyse préalable de l’identification des règles. Par exemple, l’identification d’une classification de sécurité particulière peut se faire lorsque l’on trouve une correspondance entre un numéro d’assurance sociale/numéro de sécurité sociale et un code postal/code zip.

Mythe 3 : L’autoclassification est le seul moyen d’automatiser la classification du contenu.

Au-delà de l’apprentissage machine et de l’identification de règles explicites, une autre approche de l’automatisation de la classification implique des liens sémantiques entre les champs et les valeurs. Cette notion recoupe l’idée d’une ontologie, où vous pouvez effectivement avoir une constellation d’éléments de métadonnées et de valeurs connexes. En créant ces liens, un outil approprié peut aider à sélectionner automatiquement des valeurs connexes (par exemple, la sélection de la valeur du champ ville "Montréal" est associée à la valeur du champ pays "Canada"). De cette façon, vous pouvez contribuer à réduire le nombre de sélections que les personnes chargées de classer le contenu doivent effectuer. Cette approche peut également contribuer à automatiser l’application cohérente d’étiquettes et de règles de conformité.

Mythe 4 : L’apprentissage machine n’est pas assez mature pour l’autoclassification de contenu.

Dans certains domaines, une approche d’apprentissage machine est judicieuse. Un domaine où vous avez une quinzaine de catégories abstraites, comme dans une facette catégorie de document, peut être un bon candidat pour cette technologie. Elle ne convient peut-être pas partout, mais elle est certainement adaptée aux valeurs de champs plus abstraits avec un nombre limité de catégories.

Mythe 5 : Sans une approche globale d’apprentissage machine, l’autoclassification des documents n’est pas prête.

Pour la classification des métadonnées d’un document donné, vous pouvez utiliser une combinaison d’approches pour aider à automatiser l’expérience de la classification. L’apprentissage machine, les règles explicites et les relations sémantiques entre les facettes ne sont pas mutuellement exclusives. En outre, pour un champ donné, vous pouvez décider qu’une combinaison d’approches est judicieuse, en fonction du scénario. Vous ne serez peut-être pas en mesure d’automatiser la sélection de chaque valeur dans un modèle, mais vous pouvez certainement rendre la classification de contenu beaucoup plus aisée que la classification de contenu traditionnelle.

Conclusion

Somme toute, l’apprentissage machine n’est pas en soi une panacée pour tous les scénarios de classification de contenu et ne doit pas être considéré isolément. Une analyse appropriée est nécessaire pour chaque facette/champ, par rapport au contenu pertinent, en vue d’identifier la ou les solutions d’automatisation appropriées pour chaque champ. Une combinaison de stratégies peut vous aider à faire évoluer votre organisation vers un contenu étiqueté de manière cohérente qui répond aux exigences de conformité de manière plus prévisible.

1614719641

C3 User Manual

To learn about C3 amazing features and functionalities,  and more. Please preview and download the User Manual

Download now

Stay tuned for the latest news.