Tous les jours, des sites Web naissent, se transforment ou disparaissent. Afin de conserver une trace de cette masse d'information souvent éphémère, BAnQ a intégré la collecte de sites Web à ses activités constitutives du patrimoine documentaire publié québécois.
Dans le but de s'assurer que les ressources de BAnQ sont utilisées à leur maximum d'efficience et pour des contenus de valeur, le Programme de collecte de sites Web a pour objectifs de définir le but et l'étendue de la collecte, d'établir les critères de sélection des sites et d'encadrer le processus et les activités de collecte.
BAnQ procède à une collecte sélective de sites présentant une valeur par la richesse de leur contenu, constituant un éventail de sujets et représentatifs de la société québécoise à un moment de son histoire. De nombreuses contraintes rendent en effet difficile, voire impossible, la collecte exhaustive du Web québécois, notamment :
Un minimum de 500 sites sont sélectionnés annuellement et BAnQ procède à leur collecte selon sa capacité.
Ce corpus est appelé à se renouveler au gré de l'évolution de l'offre sur le Web, des changements dans les sites collectés, ainsi que de l'intérêt qu'il suscite de la part des usagers du portail de BAnQ.
La collecte du Web permet d'obtenir les publications diffusées gratuitement sur les sites. Ces publications sont conservées, mais leur collecte ne remplace pas, à l'heure actuelle, leur dépôt par l'éditeur.
Le programme distingue trois types de sites :
Les critères de sélection ainsi que certains éléments tels que la fréquence de collecte sont déterminés par BAnQ et varient selon les types de sites.
Responsabilité de la sélection
La responsabilité de la sélection des sites à collecter relève des professionnels de la Direction générale de la Grande Bibliothèque, de la Direction générale de la Bibliothèque nationale et de la Direction générale des Archives nationales, sous la coordination de la Direction du dépôt légal et de la conservation. Un comité formé de représentants de ces unités administratives valide les propositions et s’assure qu’elles s’inscrivent dans les paramètres énoncés dans le présent document.
Critères de sélection
Les sites sélectionnés doivent d'abord répondre aux objectifs du programme de collecte tels qu’énoncés dans la section But et étendue du programme de collecte. Les producteurs doivent être québécois, l'adresse postale « Où nous joindre » en faisant foi, et l'ensemble du corpus doit viser la représentativité régionale.
La sélection doit aussi prendre en compte des critères plus spécifiques tels que :
Les sites des ministères et organismes gouvernementaux ne font pas l’objet d’une sélection. BAnQ vise la collecte de tous ces sites.
Les sites créés par des donateurs d’archives privées peuvent être collectés en complément aux fonds d’archives.
De façon générale, les sites sélectionnés sont en langue française ou anglaise ou encore en version multilingue si une version française existe.
Tous les types de contenus sont soumis à la collecte (vidéo, audio, image, texte, etc.), à moins que le robot ne puisse les collecter.
Exclusions
Certains types de sites ou portions de sites sont exclus d'emblée à cause du sujet ou de son traitement, ou encore à cause de contraintes juridiques prévisibles :
BAnQ se réserve le droit de refuser la demande d'un producteur de collecter son site si celui-ci ne répond pas à ses critères de sélection.
Collecte versus dépôt
BAnQ favorise la collecte des sites Web par un robot moissonneur plutôt que leur dépôt sur un support physique afin de pouvoir les diffuser dans leur environnement initial et en conservant l’interactivité entre les différentes parties des sites.
Applications
BAnQ procède à la collecte et à la diffusion des sites sélectionnés à l’aide des applications libres Heritrix (robot moissonneur) et OpenWayBack (navigation dans les sites). De façon générale, BAnQ ne personnalise pas ces outils afin de profiter de leur évolution et de procéder aux mises à jour plus facilement.
Licences
BAnQ peut collecter des sites québécois sans obtenir de licence au préalable. Les collectes effectuées ne peuvent cependant faire l’objet d’une diffusion, à moins que BAnQ ait obtenu une licence le permettant. La licence prévoit les modalités de diffusion des sites collectés, qui peuvent comporter la diffusion dans les locaux de BAnQ ou encore sur son portail Internet.
En ce qui concerne les ministères et organismes gouvernementaux, BAnQ peut également procéder à la collecte sans obtenir d’autorisation préalable. Elle peut également diffuser les collectes dans les locaux de BAnQ sans autorisation préalable.
Le producteur du site collecté demeure titulaire du droit d’auteur.
Pour des raisons d’ordre technique, on ne peut supprimer un site collecté une fois qu'il est indexé, mais on peut en restreindre l'accès à la demande du producteur du site.
Fréquence
La fréquence des collectes varie selon les types de sites décrits ci-dessous.
Sites des ministères et organismes gouvernementaux :
Sites thématiques :
Sites événementiels :
Profondeur
Respect du fichier robot.txt
BAnQ considère que l’autorisation préalable à la collecte obtenue de la part du producteur du site au moyen de la licence justifie d’ignorer les restrictions énoncées dans le fichier robot.txt.
Lors de la collecte, le robot de BAnQ signale son passage en laissant une carte de visite (coordonnées de BAnQ).
Qualité des collectes
Bien que des contrôles de qualité soient effectués, il est possible que le résultat de la collecte ne respecte pas l’expérience originale du site (par une absence des feuilles de style, par exemple). Si l’intégrité de l’information contenue sur le site est préservée, le site sera diffusé malgré ses imperfections.
La consultation des sites collectés se fait au moyen d'une interface de diffusion spécifique qui permet la recherche par regroupement thématique et par URL dans la liste des sites.
Bien que l'interface de diffusion soit accessible sur le portail, la consultation des sites est encadrée par l'autorisation obtenue par le producteur au moyen de la licence. Certains sites sont donc consultables uniquement dans les édifices de BAnQ.
Pour éviter toute confusion, un bandeau dans le haut des pages des sites collectés indique clairement qu’il s’agit de sites archivés.
Le résultat des collectes est destiné à une conservation permanente par BAnQ.
Les contenus collectés à l’aide de la version 3 d’Heritrix et des versions ultérieures sont conservés en format WARC. Les contenus collectés avec des versions antérieures sont conservés en format ARC.
BAnQ est membre de l'International Internet Preservation Consortium (IIPC) dont la mission est de concevoir des outils, des normes et des pratiques de collecte ainsi que de promouvoir l'accès et la diffusion des archives du Web.
Dans le but de favoriser le partage de contenus, de tâches et d’expertise, BAnQ collabore étroitement avec les différents acteurs dans le domaine.
Vous avez des questions ou encore vous désirez nous suggérer un site qui répond à nos critères de sélection?
Vous souhaitez nous aviser que votre site Web fera bientôt l’objet d’une refonte importante?
Écrivez-nous!
Courriel : archivageweb@banq.qc.ca