accueil

to know Ina

s'abonner aux flux RSSs'abonner aux flux RSS

s'incrire à la newsletters'inscrire à la newsletter

 

 

Le dépôt légal du web à l'Ina

Cadre légal

Le titre IV de la loi  2006-961 du 1er août 2006 relative aux droit d’auteur et droits voisins dans la société de l’information (DADVSI) , transposition de la directive européenne 2001/29 du 22 mai 2001, étend le champ d’application du Dépôt Légal à Internet.

En vertu des dispositions du titre III du Code du patrimoine (article L.131-2 ), « Sont également soumis au dépôt légal les signes, signaux, écrits, images, sons ou messages de toute nature faisant l’objet d’une communication au public par voie électronique. »

 

Périmètre

Pour l’exercice de la mission de dépôt légal de l’Internet, le législateur a désigné deux institutions dépositaires. Tandis que la BnF assure annuellement des collectes larges du domaine français, l’Ina se concentre sur un périmètre de sites en rapport avec son activité patrimoniale d’archivage des  productions issues du secteur de la communication audiovisuelle.

Ce périmètre se découpe en six sections distinctes :

> Les sites de media audiovisuel preexistants qui proposent généralement sur leur site web des contenus audiovisuels organisés selon une logique éditoriale proche d’une grille de programmes.

> Les web tv et les web radios qui mettent à disposition des contenus délinéarisés, éditorialisés ou non.

> Les contenus en relation avec le secteur de la communication audiovisuelle accessibles sur les plateforme de partage et diffusion vidéo.

> Les sites liés aux programmes diffusés par les chaînes : sites d’émission, sites de séries -officiels ou sites de fans - sites de personnalités des medias – artistes ou animateurs -, ou encore sites événementiels liés à un diffuseur.

> Sites en relation directe ou indirecte avec le secteur de la communication audiovisuelle : sites institutionnels, de société, prestataires ou opérateurs.

> Sites de référencement  en rapport avec le secteur de la communication audiovisuelle : annuaires, guides web, sites portail…

Ces catégories structurent un corpus constitué selon des critères de cohérence thématique. Les sites qui le constituent présentent néanmoins une grande hétérogénéité sur le plan de l’approche et des composantes éditoriales (types de contenus, volumes, fréquence de mise à jour …).

L’essentiel des ressources pour l’archivage et l’indexation se trouve ainsi affecté à  un cœur de domaine comptant un nombre restreint de sites qui publient à fréquence rapprochée des volumes importants de contenus audiovisuels. Le reste du domaine est constitué de sites moins dynamiques en termes de fréquence de publication qui contribuent à l’enrichissement documentaire et à la contextualisation des précédents. La nature du media, volatile et réactif, impose un travail assidu de veille prospective pour maintenir à jour et enrichir le périmètre des sites archivés par l’Ina dans la continuité et la cohérence de ses collections.

La collecte

Des robots de collecte spécifiques, développés à l’Ina, effectuent les campagnes d’aspiration des sites selon des fréquences préétablies en fonction du rythme de mise à jour de chacun. Le périmètre initial sera progressivement enrichi par un travail de veille documentaire sur le domaine. Chaque nouveau site identifié comme appartenant au domaine est indiqué à un ordonnanceur de captation qui gère la planification automatique des collectes. Chaque collecte saisit un instantané des sites dont la structure et les contenus sont analysés séparément. Les contenus des collectes et leur indexation automatique d'accès (URL et date) sont ensuite archivés pour permettent à l’usager la consultation du web archivé garant de la « dynamique » et de l’interactivité d’origine.

La documentation

Chaque site intégré au périmètre fait l'objet d'une validation manuelle et est accompagné d'une notice. Cet enrichissement documentaire permet de constituer des typologies de sites et de mettre en relation les contenus du web et les contenus radio ou télédiffusés. Ces typologies, combinées à une indexation plein texte sur les notices et les contenus des sites, permettent à l'usager un accès par le texte aux sites de l'archive.

Le stockage

Les contenus des pages archivés (textes, sons, images fixes ou animées) sont traités indépendamment de leur place et structure dans le site. Ils sont accompagnés d’une clé identifiante calculée par le robot au moment de la collecte, qui permet ensuite de comparer les contenus et d’identifier ceux déjà collectés. Ainsi après deux collectes successives d’un même site seuls les contenus nouveaux font l’objet d’un stockage et d'une analyse.

La consultation

A compter du mois de janvier 2009, l’archive du web français en relation avec le secteur de la communication audiovisuelle va commencer de se constituer pour être à disposition des usagers au centre de consultation de l’Inathèque selon, les conditions et critères d’accès en vigueur (http://www.ina.fr/archives-tele-radio/universitaires/index.html). L’ambition est d’offrir un accès temporel aux sites du corpus qui conserve et reconstitue les aspects dynamiques de chacun, et de proposer des outils spécifiques de requête et analyse des sites.

La conservation patrimoniale du web : un enjeu international ?

La préservation des contenus mis en ligne sur le web a très vite mobilisé les institutions patrimoniales dans un grand nombre de pays. En juillet 2003 onze bibliothèques ont créé le consortium international pour la préservation d’Internet (IIPC). Aujourd’hui coordonné par la Bibliothèque et archives du Canada, ce consortium regroupe 39 institutions en charge de la conservation patrimoniale du web dans  29 pays différents. Les membres réunis au sein de ce consortium collaborent pour  développer et mettre en œuvre des outils et technologies dédiés à l’archivage du web, établir un inventaire des collections  des contenus de l’internet pour chacun des pays membres, susciter l’intérêt d’autres institutions afin de multiplier les initiatives. L’ina a rejoint le consortium IIPC en janvier 2009 (netpreserve.org)