Validation des données

Le contrôle et la validation des données

Les données mises à disposition sont des données brutes, c'est-à-dire fournies sans retraitement, travail de valorisation ou mise en perspective particulière, telles que produites par les acteurs du SIE, et telles que rendues publiques sur les sites de la toile Eaufrance. Par « données brutes » on entend que ces données n’ont pas fait l’objet d’une valorisation mais elles ont toutefois souvent fait l’objet d’un travail de contrôle et de validation de la part du producteur de données.

En effet, lors du recueil de donnée il peut y avoir un certain nombre d'erreur qui pourront impacter le résultat

  • erreur de mesure (exemple : mesure de profondeur indiquée en cm au lieu de m)
  • erreur de saisie (exemple : l'utilisateur saisit 244 au lieu de 24)
  • erreur de transfert (problème de mapping ou d'encodage)

Par conséquent, une fois dans la banque de référence les opérateurs associent à chaque enregistrement une qualité et ils indiquent que ce niveau de qualité a été donné. C'est l'objectif des indications sur la qualification et le statut de la donnée.

Qualification de la donnée

La qualification de la donnée est le niveau de confiance que l'opérateur a dans la conformité d'un enregistrement. Les valeurs possibles de la qualification des données sont définies par le Sandre ici.

Dans Naïades, cette qualification est illustrée par le jeu d'icônes suivant :

icones qualification des données

Bien que la qualification correcte soit associée à un icône vert et la qualification incorrecte soit associée à un icône rouge, ne pas préjuger du niveau de qualité de l'eau du cours d'eau ou du plan d'eau mais bien du niveau de confiance dans le résultat

Statut de la donnée

Le statut d'un enregistrement indique l'état d'avancement du processus de qualification de la donnée. Les valeurs possibles de la qualification des données sont définies par le Sandre ici.

avertissement Le statut des données n'est disponible que dans les exports Naïades.

Exemple d'utilisation du couple qualification-statut

  1. Sur le terrain un agent mesure un pH de 12,5. Lorsqu'il l'enregistre dans sa base : cet enregistrement de pH a une qualification égale à "4 - non qualifié" et un statut égal à "1 - Donnée brute"
  2. Des contrôles automatiques sont effectués par un collègue qui considère incorrects tous les pH supérieurs à 12 : cet enregistrement de pH prend une qualification égale à "2 - incorrect" et un statut égal à "2 - Donnée contrôlée niveau 1"
  3. Au regard de l'historique des valeurs de pH du lieu ayant fait l'objet d'un prélèvement un expert considère que cette valeur est correcte: cet enregistrement de pH prend alors une qualification égale à "1 - correct" et un statut égal à "3 - Donnée contrôlée niveau 2"

Complétude et qualité des données

Le site Naïades étant encore en cours de développement il est possible que certaines données ne soient pas encore diffusées, c’est notamment le cas pour certaines données des DOM ou encore pour les données d’hydrobiologie non poissons qui ne sont pas encore accessibles sous format bancarisé. L’équipe Naïades et les producteurs de données se mobilisent autant que possible pour mettre ces données à disposition au plus vite.

Il est possible que l’utilisateur Naïades mette en évidence des « erreurs » dans les données, telles qu’une concentration négative ou une donnée en doublon. Il est conseillé dans ce cas de faire remonter cette observation via le formulaire de contact à l’équipe Naïades qui s’occupera de faire suivre à la banque de référence pour correction future de cette donnée.

De plus il convient de noter que pour de nombreux champs ne sont pas renseignés intégralement dans les données mises à disposition. Cet état de fait peut-être considéré comme normal, trois raisons principales à cela : Pour commencer certains opérateurs ne collectent pas toutes les données, par choix ou non. Ensuite les données « historiques » ne contiennent pas forcément les informations pour tous les champs, les protocoles ayant changés avec le temps. Enfin certains relevés ne sont pas compatibles pour permettre de compléter l’information de tous les champs.

Il est possible que des données déjà disponibles soient modifiées entre deux alimentations. Plusieurs cas peuvent justifier cela, par exemple : la donnée peut avoir fait l’objet d’un travail de validation alors qu’elle était jusqu’à maintenant diffusée « brute », elle peut être devenue « incorrecte » suite à vérification ou encore les données historiques peuvent avoir été retravaillé par leur producteur. Naïades n’indique pas à l’échelle de la donnée si celle-ci a été modifiée ou non depuis l’alimentation précédente. L’utilisateur est donc responsable de la vérification d’éventuelles modifications des données qu’il utilise. C’est aussi pour cette raison qu’indiquer la source et la date de téléchargement des données lors de l’usage de ces données est essentiel. De même utiliser uniquement des données validées et qualifiées « correctes » permet de limiter ce problème éventuel.