Collecte de sites Web

 

Tous les jours, des sites Web naissent, se transforment ou disparaissent. Afin de conserver une trace de cette masse d'information souvent éphémère, BAnQ a intégré la collecte de sites Web à ses activités constitutives du patrimoine documentaire publié québécois.

Dans le but de s'assurer que les ressources de BAnQ sont utilisées à leur maximum d'efficience et pour des contenus de valeur, le Programme de collecte de sites Web a pour objectifs de définir le but et l'étendue de la collecte, d'établir les critères de sélection des sites et d'encadrer le processus et les activités de collecte.

 But et étendue du programme de collecte 

BAnQ procède à une collecte sélective de sites présentant une valeur par la richesse de leur contenu, constituant un éventail de sujets et représentatifs de la société québécoise à un moment de son histoire.  De nombreuses contraintes rendent en effet difficile, voire impossible, la collecte exhaustive du Web québécois, notamment :

  • l’ampleur du corpus en regard des ressources limitées de BAnQ;
  • les contraintes juridiques : nécessité d'obtenir une autorisation de la part du producteur et des autres titulaires de droits du site au moyen d’une licence;
  • les contraintes contextuelles : le Québec ne possède pas de nom de domaine propre.  

 Un minimum de 500 sites sont sélectionnés annuellement et BAnQ procède à leur collecte selon sa capacité à obtenir les licences requises.

 Ce corpus est appelé à se renouveler au gré de l'évolution de l'offre sur le Web, des changements dans les sites collectés, ainsi que de l'intérêt qu'il suscite de la part des usagers du portail de BAnQ.

 La collecte du Web permet d'obtenir les publications diffusées gratuitement sur les sites. Ces publications sont conservées, mais leur collecte ne remplace pas, à l'heure actuelle, leur dépôt par l'éditeur. 

 

Typologie des sites collectés

Le programme distingue trois types de sites :

  • sites des ministères et organismes gouvernementaux assujettis à la Loi sur les archives (environ 150 sites des organismes du secteur public centralisé tel que défini à l’article 15 et à l’annexe de la Loi sur les archives); la collecte de ces sites en remplace le versement pour les organismes soumis à cette loi;
  • sites thématiques, portant sur un sujet ou un domaine de connaissances;
  • Sites événementiels, créés lors d'événements particuliers et dont la durée de vie est éphémère, par exemple les élections et les événements commémoratifs.

Les critères de sélection ainsi que certains éléments tels que la fréquence de collecte sont déterminés par BAnQ et varient selon les types de sites.   

 

Sélection des sites

Responsabilité de la sélection
La responsabilité de la sélection des sites à collecter relève des professionnels de la Direction générale de la Grande Bibliothèque, de la Direction générale de la Bibliothèque nationale et de la Direction générale des Archives nationales, sous la coordination de la Direction du dépôt légal et de la conservation des collections patrimoniales. Un comité formé de représentants de ces unités administratives valide les propositions et s’assure qu’elles s’inscrivent dans les paramètres énoncés dans le présent document.

Critères de sélection
Les sites sélectionnés doivent d'abord répondre aux objectifs du programme de collecte tels qu’énoncés au point 1. Les producteurs doivent être québécois, l'adresse postale « Où nous joindre » en faisant foi, et l'ensemble du corpus doit viser la représentativité régionale.

 La sélection doit aussi prendre en compte des critères plus spécifiques tels que :

  • l’intérêt du site pour les usagers et les citoyens;
  • la notoriété du producteur du site; le signalement du site dans des sources reconnues;
  • l'actualité du sujet, l'importance de l'événement, la valeur permanente et historique du contenu;
  • l'originalité du sujet, sa complémentarité avec les autres collections de BAnQ;
  • l'accessibilité de l'information;
  • la qualité de la langue, de la présentation du site, ses qualités techniques, sa facilité de consultation;
  • le risque que le site disparaisse.

Les sites créés par des donateurs d’archives privées peuvent être collectés en complément aux fonds d’archives. 

De façon générale, les sites sélectionnés sont en langue française ou anglaise ou encore en version multilingue si une version française existe.

Tous les types de contenus sont soumis à la collecte (vidéo, audio, image, texte, etc.), à moins que le robot ne puisse les collecter.

Exclusions
Certains types de sites ou portions de sites sont exclus d'emblée à cause du sujet ou de son traitement, ou encore à cause de contraintes juridiques prévisibles :

  • les médias sociaux;
  • intranets, extranets, courriels;
  • les sites contrevenant aux lois en vigueur;
  • les sites publicitaires et transactionnels;
  • les bases de données;
  • les contenus payants.

BAnQ se réserve le droit de refuser la demande d'un producteur de collecter son site si celui-ci ne répond pas à ses critères de sélection.

 

Méthodes de collecte

Collecte versus dépôt
BAnQ favorise la collecte des sites Web par un robot moissonneur plutôt que leur dépôt sur un support physique afin de pouvoir les diffuser dans leur environnement initial et en conservant l’interactivité entre les différentes parties des sites.

Applications
BAnQ procède à la collecte et à la diffusion des sites sélectionnés à l’aide des applications libres Heritrix (robot moissonneur) et WayBack Machine (navigation dans les sites). De façon générale, BAnQ ne personnalise pas ces outils afin de profiter de leur évolution et de procéder aux mises à jour plus facilement.

Licences
En vertu de la Loi sur le droit d'auteur, BAnQ a l'obligation d'obtenir, avant toute collecte, une licence qui lui permet de reproduire aux fins d’archivage une copie du site, ainsi que d'effectuer les opérations nécessaires pour en assurer la conservation et la diffusion à long terme (migration, conversion de fichiers). La licence prévoit également les modalités de diffusion des sites collectés, qui peuvent être diffusés dans les locaux de BAnQ sur des postes sécurisés sans possibilités d'impression ou de sauvegarde, ou encore sur son portail Internet.

Licence – Sites web (PDF

En ce qui concerne les ministères et organismes du secteur public centralisé régis par la Loi sur les archives, BAnQ peut procéder à la collecte sans obtenir d’autorisation en vertu de l’article 31 de cette Loi. Cependant, une licence est requise pour diffuser les sites collectés.

Le producteur du site collecté demeure titulaire du droit d’auteur.

Pour des raisons d’ordre technique, on ne peut supprimer un site collecté une fois qu'il est indexé, mais on peut en restreindre l'accès à la demande du producteur du site.

Fréquence
La fréquence des collectes varie selon les types de sites décrits ci-dessous. Lors des collectes subséquentes, les sites sont collectés dans leur intégralité.

Sites des ministères et organismes gouvernementaux :

  • Lors de modifications de la structure ou de la mission d’un ministère ou d’un organisme.
  • Lors de la mise en ligne d'un nouveau site.
  • À la suite d'une modification majeure du site (remplacement majeur du contenu, refonte de la charte graphique, modification de l'architecture).
  • À la veille de la suppression d'un site.

Sites thématiques :

  • Collecte quotidienne, à un niveau superficiel, des sites des principaux médias québécois.
  • Annuellement, ou selon un cycle déterminé par le temps requis par le robot pour effectuer la collecte complète de tous les sites thématiques.
  • Certains sites pourront être collectés à des fréquences plus rapprochées selon l'évolution de leur contenu.

 Sites événementiels :

  • Lors d'événements politiques importants (élections, référendums) : collecte quotidienne ou hebdomadaire d'une sélection de sites.
  • Lors d'événements majeurs imprévisibles (par exemple, des accidents écologiques, des mouvements sociaux tels que la contestation étudiante de 2012) : collecte quotidienne des sites créés pour l'événement.
  • Lors d'événements importants prévisibles (par exemple, le 375e anniversaire de Montréal) : fréquence variable selon l'intensité de l'événement et la rapidité de son évolution.=

Profondeur

  • Sites gouvernementaux : collecte complète du site en tenant compte des capacités du robot.
  • Sites thématiques et événementiels (sauf la collecte quotidienne des médias) : collecte complète à moins que le temps requis soit trop important ou que le contenu prenne trop d'espace.

 

Respect du fichier robot.txt
BAnQ considère que l’autorisation préalable à la collecte obtenue de la part du producteur du site au moyen de la licence justifie d’ignorer les restrictions énoncées dans le fichier robot.txt.

Lors de la collecte, le robot de BAnQ signale son passage en laissant une carte de visite (coordonnées de BAnQ).

Qualité des collectes
Bien que des contrôles de qualité soient effectués, il est possible que le résultat de la collecte ne respecte pas l’expérience originale du site (par une absence des feuilles de style, par exemple). Si l’intégrité de l’information contenue sur le site est préservée, le site sera diffusé malgré ses imperfections.

 

Diffusion des collectes

La consultation des sites collectés se fait au moyen d'une interface de diffusion spécifique qui permet la recherche par regroupement thématique et par URL dans la liste des sites. 

Bien que l'interface de diffusion soit accessible sur le portail, la consultation des sites est encadrée par l'autorisation obtenue par le producteur au moyen de la licence. Certains sites sont donc consultables uniquement dans les édifices de BAnQ.

Pour éviter toute confusion, un bandeau dans le haut des pages des sites collectés indique clairement qu’il s’agit de sites archivés.

 

Conservation

Le résultat des collectes est destiné à une conservation permanente par BAnQ.

Les contenus collectés à l’aide de la version 3 d’Heritrix et des versions ultérieures sont conservés en format WARC. Les contenus collectés avec des versions antérieures sont conservés en format ARC.

 

Collaboration avec d’autres organismes

BAnQ est membre de l'International Internet Preservation Consortium (IIPC) dont la mission est de concevoir des outils, des normes et des pratiques de collecte ainsi que de promouvoir l'accès et la diffusion des archives du Web.

Dans le but de favoriser le partage de contenus, de tâches et d’expertise, BAnQ collabore étroitement avec les différents acteurs dans le domaine. 

 

Des questions?

Vous avez des questions ou encore vous désirez nous suggérer un site qui répond à nos critères de sélection?
Écrivez-nous!
Courriel : archivageweb@banq.qc.ca

 

Nos partenaires

Catalogue des bibliothèques du Québec. RFN. RDAQ. Les Amis de BAnQ. Fondation de BAnQ.