Du GED au NoSQL

Quelles solutions aujourd’hui pour la gestion documentaire ?

 

La numérisation et la dématérialisation généralisées des documents rend indispensable la mise en place au sein des organisations d'un système de gestion documentaire.

Celui-ci doit répondre à un ensemble d'exigences :

  • conservation sécurisée des documents (avec parfois des problématiques d'inaltérabilité ou de traçabilité) ;
  • centralisation, disponibilité et actualisation de documents dispersés dans différents services, en différents lieux physiques ;
  • accessibilité/localisation des documents et de leur contenu : indexation, métadonnées, recherche plein texte, extraction et synthèse d'informations ;
  • suppression effective de données ciblées.

La GED, ou gestion électronique des documents, telle qu'elle s'est développée dans les années 90/2000 au sein des grosses entreprises, s'avère aujourd'hui inadaptée : prise en compte insuffisante des métadonnées, absence de recherche plein texte (ou simplement non prise en compte des contenus), difficulté à gérer de gros volumes ou des sources hétéroclites, etc.

Fondées sur l'exploitation de bases de données relationnelles, ces solutions souffrent d'une certaine rigidité, peinant à intégrer de manière performante des données non structurées ou encore à s'élargir à de nouvelles sources d'informations. S'ajoutent à cela de nouvelles attentes quant à la valorisation croissante des données, et le respect de la législation qui en découle.

L'essor de nouvelles technologies liées au Big Data, à la fouille de textes et à l'intelligence artificielle ouvrent de nouvelles perspectives à la gestion documentaire. En particulier, les systèmes de gestion de bases de données NoSQL orientés documents (tel que MongoDB, CouchDB, MarkLogic) ou orientés graphes (tel que Neo4j) offrent une flexibilité et un potentiel de recherche inégalés. Le concept de "documents" doit s'entendre ici au sens informatique comme un ensemble de données collectées, généralement sans schéma pré-défini. Quant aux "graphes", ils font référence à la théorie des graphes sur laquelle repose les processus de requête. On citera également l'apparition de moteurs de recherche puissants tels que Lucene/Solr ou Elasticsearch.

 

Voir aussi


 La Ged, c'est fini! par Philippe Goupil (ArchiMag)

Gestion des actifs documentaires : Arrêtez de stocker et commencez à exploiter par Frédéric Valluat 

Cours complet sur les bases de données documentaires et distribuées par Philippe Rigaux (CNAM) 

Sur l'utilisation des bases de données orientées documents : Nuxeo Platform s’intègre avec MongoDB pour un stockage basé sur le document, évolutif et disponible ou Nuxeo ajoute un moteur de persistance pour la base de données MarkLogic Enterprise NoSQL afin d'élargir ses capacités (communiqués de Nuxeo)

Sur l'utilisation des graphes (Neo4j) : Enterprise Data Management with Graphs par Axel Morgner ; Graph databases & ECM - Neo4J meets Documentum par Yuri Simione

Sur l'utilisation d'ElasticSearch : La business intelligence appliquée aux textes