Une masse de données indigeste Pour chaque animal (16 au total) on réalise un enregistrement formé d'une suite de points qui ont chacun deux valeurs :
Actuellement, une mesure est réalisée toutes les 0,1 seconde, 24/7, et les animaux sont échantillonnés l'un après l'autre. Donc, avec 16 huîtres, un animal est interrogé toutes les 1,6 secondes. Pour décrire le comportement du groupe on dispose chaque jour d'un tableau de 864 000 lignes où on trouve 3 informations de base: le n° de l'animal (de 1 à 16), l'heure-min-sec de la mesure, la valeur de l'écartement des valves. L'ensemble représente un total de près de 2,6 millions d'informations / jour. |
|||
|
|||
![]() |
![]() |
||
Au final, une grande masse de données chaque jour pour décrire le comportement de chaque animal et du groupe! Et chaque jour, les données s'accumulent… Si on multiplie par 365 jours, on voit qu'on a 315 360 000 mesures qui décrivent le comportement du groupe de 16 animaux étudiés (864 000 x 365). Et nous avons plusieurs sites... et un de nos buts est d'enregistrer sur plusieurs années pour voir les tendances à long terme de l'évolution des masses d'eau. Aucun outil statistique du commerce ne peut traiter correctement un tel ensemble d'informations qui contient bien sur en plus, des valeurs aberrantes et des valeurs manquantes. D'où l'importance d'un travail fondamental actuellement en mathématiques appliquées. Télécharger 2 brèves de vulgarisation rédigées avec les mathématiciens et publiées sur le site Mathématiques de la planète Terre 2013 [Les huitres ont des oreilles], [Les huitres rêvent-elles de moutons électriques?]. |
|||
On peut bien sur représenter graphiquement les données (voir la rubrique Enregistrements de la page web) et observer quelques phénomènes et tendances. On observe par exemple qu'il est exceptionnel que des huîtres restent ouvertes toute la journée. Mais l'esprit humain est bien sur, en quelques jours, totalement incapable de décrire, d'intégrer et de «digérer» un tel ensemble d'informations, de figures individuelles, et naturellement d'en tirer profit. |
|||
Telles quelles, ces séries de données sont donc peu exploitables. D'autant plus que différents facteurs du milieu (plus ou moins intuitifs) vont influencer le comportement des animaux et que d'autres facteurs vont par conséquent devoir aussi être intégrés. Pour aller au delà de ces difficultés, et en particulier pouvoir mesurer les vitesses de fermeture et ouverture, nous avons décidé de modéliser et traiter statistiquement les données obtenues en continu. L'idée était de transformer chaque série journalière, par animal, en une seule équation mathématique, puis d'exploiter ces équations pour en tirer un maximum de valeurs « pré-digérées », faire des moyennes et des statistiques sur la journée, la semaine, le mois ou l'année. D'où bien sur tout l'intérêt d'une approche pluridisciplinaire alliant biologiste, électronicien et mathématicien. En final, la détermination de modèles mathématiques et statistiques va nous permettre de décrire et comprendre le fonctionnement de ces animaux in situ . Le nombre de fois par exemple, ou un animal fait des petits mouvements de fermeture (impossible à compter manuellement sur de grandes séries), peut être considéré comme caractéristique d'un état de fébrilité. Ceci pourrait être assimilable à ce que nous faisons lorsque nous nous passons la langue sur les lèvres de façon répétitive ou qu'un chien hume l'air en cherchant d'où vient une odeur (au biologiste ensuite de découvrir pourquoi des huîtres peuvent devenir «fébriles»!). |
|||
|
|||
Principe de l'analyse mathématique : |
|||
L'ensemble du traitement est réalisé sous Linux (version Fedora 4) sur une station de travail DELL biprocesseur, 16 coeurs. Pour modéliser l'ensemble de ces mouvements, nous avons utilisé un modèle de régression non paramétrique basé sur un estimateur de type noyau (Silverman (1986), Härdle (1992), Durrieu (1997ab, 1999), Tran et al ., (2003) et Durrieu et Briollais (2006)). La relation cherchée est représentée par le modèle de régression: |
|||
![]() |
|||
où n, Y i , t i et m(.) représentent respectivement le nombre total de couples de valeurs, la distance entre les électrodes, le moment exacte de la mesure (jour, heure, minute, seconde) et la fonction de régression inconnue à estimer. La source de variation e i est une variable aléatoire de moyenne nulle et de distribution f inconnue (cadre non paramétrique) qui permet de caractériser la variation de la variable aléatoire Y autour de |
|||
![]() |
|||
Cette fonction moyenne (définition de l'espérance conditionnelle de Y sachant T) est fonction de la densité conjointe de probabilité du couple (Y,T), notée f(y,t) (inconnue) et de la densité de probabilité de la loi marginale de T notée f(t) (inconnue aussi). Le problème est donc d'estimer la fonction m(.) conditionnée par les mesures effectuées au cours du temps. Après estimation des densités de probabilité on en déduit l'estimateur de m() qui décrit le comportement d'un animal |
|||
![]() |
|||
où K h () désigne une fonction qui a la propriété d'être symétrique par rapport à 0 et d'intégrale égale à 1 (h désigne le paramètre de lissage que l'on estime de manière automatique par la méthode de la validation croisée). Les propriétés statistiques de ces estimateurs (consistance, comportement asymptotique, biais, etc) ont bien sur été étudiés mais ne sont pas données ici. |
|||
Pour finir, voici une liste non exhaustive des grandeurs que nous pouvons suivre et/ou calculer actuellement. Cet ensemble permet ainsi aborder divers aspects du comportement décrivant au niveau du jour, de la semaine ou du mois, des traits de vie caractéristiques d'un mollusque bivalve et cela, dans un endroit donné, à une condition et un moment donné. |
|||
|
|||
La mise en place de ces modèles a en fait nécessité la mise en place d'algorithmes optimisés afin d'éviter des temps calculs trop importants générés par le gros volume de données à traiter (chaque fichier représente 18 M octets pour une seule journée). Si on raisonne en terme de protection de l'environnement, lors d'une crise suite à une pollution aigu ou chronique, des variations de différents paramètres du comportement vont apparaître. Ce type d'analyse aide donc à mieux comprendre et interpréter l'impact des produits incriminés sur la faune marine et l'écosystème touché. |
|||
MATERIEL: Sur le terrain on privilégie haute précision, économie d'énergie et robustesse (on est toujours en milieux extrèmes, immergé en mer, du milieu tropical aux mers polaires, exposé aux tempêtes et au froid, avec peu de possibilités de reboot). La stratégie a été de développer notre propre électronique avec la Société EUKREA Electromatique à Pessac. Nous avons conçu avec eux des mini-ordinateurs esclaves, dédiés, consommant 1 W et fonctionnant sous Linux embarqué. Au laboratoire, où l'énergie n'est pas limitante, on privilégie la puissance de calcul avec des codes dédiés qui font l'objet de développements permanents en fonction de l'imagination des biologistes. Tous les calculs sont réalisés sur un serveur DELL PowerEdge T620, biprocesseurs, 8 coeurs. Ce serveur (le Maitre) gère l'ensemble des sites de terrain (les Esclaves). Les données du serveur sont sauvegardées quotidiennement sur 2 autres machines, localisées sur 2 sites géographiques différents (niveau de redondance du stockage = 3). |
![]() |
||
Pour en savoir plus : |
|||
|