Programme de collecte de sites Web

Le programme de collecte de sites Web de BAnQ a pour but de sélectionner et de rendre accessibles des contenus représentatifs de la société québécoise à un moment de son histoire.

 

But et étendue du programme de collecte


BAnQ procède à une collecte sélective de sites Web québécois présentant une valeur par la richesse et la qualité de leur contenu. Elle vise à créer un ensemble représentatif de la société québécoise.

Le programme de collecte de sites Web découle de la Politique de développement des collections de la Bibliothèque nationale de BAnQ.
 

Catégories de sites collectés


Le programme distingue quatre catégories de sites à collecter :

  • Sites des organismes publics tels que définis à l’annexe de la Loi sur les archives
  • Sites thématiques portant sur un sujet ou un domaine de connaissances précis
  • Sites créés lors d'événements particuliers et dont la durée de vie est éphémère (par exemple, les élections et les événements commémoratifs)
  • Sites de médias couvrant l’actualité nationale québécoise

 

Sélection des sites

 

Pourquoi effectuer une sélection?
 

Il est nécessaire de procéder à une collecte sélective des sites Web québécois, car plusieurs contraintes rendent difficile, voire impossible une collecte complète :

  • L’absence d’un nom de domaine spécifique aux sites québécois
  • Le nombre très important de sites québécois présents sur le Web en comparaison des ressources limitées de BAnQ
  • La nécessité d’obtenir une autorisation de l’ensemble des titulaires de droits pour rendre accessibles au public les sites collectés

 

Responsabilité de la sélection
 

La responsabilité de la sélection des sites à collecter relève de BAnQ, qui s’assure que la sélection est conforme aux critères énoncés ci-dessous.

 

Critères de sélection
 

Pour être collectables, les sites Web doivent répondre aux objectifs du programme de collecte, ainsi qu’à des critères plus spécifiques :

  • L’intérêt du site pour le grand public
  • La notoriété du producteur du site
  • L'actualité du sujet et la valeur historique du contenu
  • L'originalité du sujet et sa complémentarité avec l’ensemble des collections de BAnQ
  • La qualité de la présentation du site

Les sites Web des ministères et organismes gouvernementaux visés aux paragraphes 1° à 3° de l’annexe de la Loi sur les archives ainsi que ceux des médias couvrant l’actualité nationale québécoise ne font pas l’objet d’une sélection, car ils relèvent du dépôt légal des publications numériques. BAnQ vise une collecte intégrale de ces sites.

Certains types de sites sont exclus de toute collecte :

  • Les sites qui ne sont pas en conformité avec la loi
  • Les sites dont les contenus sont payants
  • Les sites publicitaires
  • Les sites transactionnels
  • Les médias sociaux
  • Les intranets et extranets
  • Les bases de données
     

Licence d’autorisation


BAnQ peut collecter des sites Web québécois sans autorisation préalable.

Cependant, pour qu’un site collecté puisse être mis à la disposition du public, son producteur doit accorder à BAnQ une licence d’autorisation afin de respecter la Loi sur le droit d’auteur. La licence prévoit deux modes de consultation possibles :
 


Le producteur du site demeure seul titulaire de ses droits d’auteur.

Les sites des ministères et organismes gouvernementaux peuvent être collectés et mis à la disposition du public en accès restreint sans autorisation préalable. La licence d’autorisation demeure cependant nécessaire pour une mise à disposition en accès libre.

Pour des raisons techniques, un site collecté ne peut être ultérieurement supprimé, mais il est possible d’en restreindre l'accès à la demande de son producteur.
 

Collecte des sites

 

Méthode de collecte
 

La collecte des sites Web est assurée par le logiciel libre Heritrix, un robot d’indexation qui explore et collecte automatiquement l’ensemble des contenus diffusés librement sur un site, quel que soit leur type (texte, image, audio, vidéo, page Web, etc.). Il est cependant possible que certains contenus ne puissent être collectés pour des raisons techniques.

Lors de la collecte, le robot signale son passage en laissant une carte de visite (coordonnées de BAnQ).

La collecte de sites Web par Heritrix permet de les diffuser dans leur environnement initial, en conservant l’interactivité entre leurs différentes sections.

 

Fréquence de collecte
 

BAnQ vise à collecter les sites Web à des fréquences régulières, selon la catégorie à laquelle ils appartiennent.

Sites des ministères et des organismes gouvernementaux :

  • Une fois par an pour les ministères
  • Une fois tous les deux ans pour les organismes gouvernementaux
  • Chaque fois que le producteur du site signale à BAnQ des évolutions majeures
    • Modification importante du contenu ou de l’architecture du site
    • Modification de la structure ou de la mission du ministère ou de l’organisme gouvernemental
    • Mise en ligne d’un nouveau site
    • Suppression prochaine du site

BAnQ visant à collecter l’ensemble des sites ministériels et gouvernementaux, le signalement d’évolutions majeures par les producteurs de ces sites est essentiel à la réussite de cet objectif.

Sites thématiques :

  • Une fois tous les deux ans pour les sites québécois les plus fréquentés
  • Une fois tous les quatre ans pour les sites relevant du secteur de la santé et des services sociaux, de l’éducation et des municipalités régionales de comté
  • À une fréquence variable selon la périodicité des contenus pour les sites des médias couvrant l’actualité nationale québécoise (journaux, magazines, revues, etc.)

Sites événementiels :

  • Une fois par jour pour les sites relatifs à des événements majeurs imprévisibles
  • À une fréquence variable pour les sites relatifs à des événements majeurs prévisibles, selon la durée de l'événement et son évolution
  • Une fois par semaine pour la plupart des sites relatifs à des événements politiques importants
     

Profondeur de collecte


La grande majorité des sites sélectionnés font l’objet d’une collecte complète, à moins que le temps requis soit trop important ou que le volume des contenus dépasse les capacités de stockage du robot d’indexation.

Les sites d’actualité sélectionnés sont collectés chaque jour, mais seulement en surface.
 

Qualité des collectes


Des contrôles de qualité sont effectués afin de s’assurer que l’intégrité de l’information contenue sur les sites soit préservée. Cependant, ceux-ci ne garantissent pas que le résultat de la collecte respecte à l’identique l’expérience originale du site.
 

Archivage des sites collectés


Les sites Web collectés font l’objet d’une conservation permanente par BAnQ.

Les collectes les plus récentes sont archivées en format Web Archive Format (WARC, norme ISO 28500). Les collectes plus anciennes sont archivées en format Archive File Format (ARC).
 

Consultation des sites archivés


La consultation des sites archivés se fait en visitant la collection de sites Web archivés qui fonctionne sur la base du logiciel libre OpenWayback.

La recherche peut être faite par nom ou par URL. Il est également possible de sélectionner une thématique ou une catégorie d’organisation, au moyen d’un menu déroulant.

Lorsqu’un site est choisi, une ligne du temps et un calendrier permettent de connaître le nombre et la date des collectes effectuées, et de consulter chacune des versions du site en cliquant sur la date voulue.

Bien que la collection de sites Web archivés soit accessible sur le site Web de BAnQ, c’est la licence d’autorisation associée à l’organisme qui définit les modalités de consultation du site. Certains sites sont donc consultables uniquement sur les postes informatiques situés dans les édifices de BAnQ.

Pour éviter toute confusion, un bandeau situé en haut de chaque page Web consultée indique clairement qu’il s’agit d’une copie archivée du site.
 

Collaboration avec d’autres organismes


BAnQ est membre de l'International Internet Preservation Consortium (IIPC), dont la mission est de concevoir des outils, des normes et des pratiques de collecte ainsi que de promouvoir l'accès aux archives du Web.

BAnQ est également membre de la Canadian Web Archiving Coalition (CWAC), une communauté de pratique inclusive au sein des bibliothèques, des services d’archives et d’autres institutions de mémoire du Canada.

BAnQ favorise le partage de contenus relatifs à l’archivage Web avec d’autres institutions canadiennes.
 

Pour communiquer avec nous


Si vous souhaitez suggérer la collecte et l’archivage du site Web que vous produisez, discuter de la fréquence de collecte ou nous informer de changements majeurs à propos d’un site que nous collectons déjà, vous pouvez nous contacter:
 

Téléphone: 514 873-1101 ou 1 800 363-9028, poste 6602
Courriel: archivageweb [at] banq.qc.ca