Titre : Fouille de données massives et incertaines : Apport des motifs graduels.
Type : DSCA (Dispositif de soutien aux collaborations avec l’Afrique sub-saharienne),
Période : Sept. 1, 2022 – Fin du projet : Aug. 31, 2024
Ce projet s'inscrit dans le cadre de la coopération entre l'UCA (France) et l'Université de Yaoundé I (Cameroun) et a pour but principal l'extraction des motifs graduels en présence de données massives et incertaines. Les facteurs graduels sont une approche consistant à extraire les covariations sous la forme plus/moins x, plus/moins y. Plusieurs orientations (tâches) vont être étudiées par les membres du projet :
- La tâche d'étude de corrélation se fera à travers une étude expérimentale comparative entre les corrélations des paires d'attributs capturées par les motifs graduels et celles détectées en utilisant les mesures statistiques et ensuite proposer une mesure de calcul de corrélations entre plusieurs attributs.
- La tâche d'extraction des motifs dans un contexte multi-vue ou incertain est important dans le cadre de données massives, et ce double aspect peut être pris en compte pendant la phase du prétraitement, ou du posttraitement ou lors de l'extraction des motifs graduels.
Objectifs principaux :
Dans ce projet, nous souhaitons explorer les méthodes d'extraction de motifs dans les données numériques. De nos jours, les données numériques sont omniprésentes dans toutes les applications en raison de la prolifération des dispositifs et des capteurs de mesure et de collecte de données. Ces données sont généralement analysées en utilisant des outils d'analyse statistique et d'apprentissage automatique. Cependant, très peu d'approches ont été proposées pour l'extraction des motifs dans des données numériques, la plupart procédant par une discrétisation des attributs numériques en attributs catégoriels.
Dans ce projet, nous intéressons particulièrement à l'extraction des motifs graduels dans des données numériques. Les motifs graduels capturent les covariations fréquentes entre attributs de la forme "plus/moins X, … , plus/moins Y" dans des données numériques. Ces dernières années, ce type de motif a suscité beaucoup d'attention dans une multitude de domaines pour le traitement des données numériques, et plusieurs méthodes et formalismes ont été définis pour extraire automatiquement ces motifs à partir des données numériques. Les motifs graduels modélisent les corrélations entre attributs en termes de variabilité, souvent recherchées dans de nombreux domaines comme la biologie pour découvrir des corrélations entre expressions génomiques, en médecine pour découvrir des corrélations entre mémoire et les points de sentiment dans le cadre du diagnostic d'état mental.
Bien que l'apport des motifs graduels exprimant des corrélations en termes de variabilité des valeurs d'attributs numériques ait été pleinement affichée pour certaines applications, aucune étude n'a jusqu'à présent été menée sur l'apport de tels motifs par rapport aux corrélations d'attributs (corrélations multiples) extraites en utilisant des mesures de corrélation statistiques comme la mesure de corrélation de Pearson ou encore les mesures de corrélation de rang (par exemple, la corrélation de rang de Spearman ou le tau de Kendall). Par ailleurs, de nos jours, les données numériques pour une même application qui sont souvent récupérées à travers des modalités d'acquisitions différentes peuvent provenir de plusieurs sources et entachées d'incertitude, au sens de l'imprécision de la mesure. Ces données provenant de plusieurs sources (plusieurs bases de données) sont généralement stockées dans une base de données unique (qui peut être volumineuse) sur laquelle les algorithmes d'extraction de motifs graduels sont exécutés. Cependant, l'un des challenges des algorithmes d'extraction de motifs graduels est le passage à l'échelle, c'est à dire leur capacité à pouvoir extraire efficacement les motifs graduels dans de grandes quantités de données numériques en raison de l'espace de combinaison exponentiel à explorer. Relativement peu d'approches, exploitant généralement le parallélisme sur des processeurs multi-cœurs, ont été proposées pour extraire les motifs graduels dans des grandes volumes de données en de temps raisonnables, certains algorithmes s'avèrent même impossible à exécuter pour certaines quantités de données. Il peut être intéressant d'envisager une distribution de données par bloc de sources de données pour l'extraction des graduels dans des données volumineuses, chaque bloc correspondant à une vue verticale de la base de données initiale.
L’application des méthodes sur des applications réelles telles que la recommandation ou l’annalyse des données du COVID-19 sera aussi envisagée dans le cadre de ce projet.