En bref
Le projet SCANFOODLABEL a pour objectif de créer une base de données exhaustive des produits alimentaires disponibles sur le marché belge, en centralisant les informations figurant sur les étiquettes, telles que les ingrédients, les additifs alimentaires (numéros E) et les valeurs nutritionnelles.
Nous collectons des données auprès de milliers de produits proposés par les détaillants en ligne, offrant ainsi une ressource précieuse pour la sécurité alimentaire et la nutrition. Pour cela, nous développons des méthodes automatisées permettant de nettoyer et de traiter de grands volumes de données alimentaires, incluant une approche basée sur l’intelligence artificielle pour classer les produits selon des catégories standardisées utilisées en science alimentaire et dans les réglementations européennes.
En rendant ces données accessibles, le projet permet aux chercheurs et aux décideurs de suivre le marché, d’identifier d’éventuels risques pour la Santé et de soutenir l’élaboration de politiques de sécurité alimentaire fondées sur des preuves scientifiques.
Description du projet
Base de données de produits alimentaires
Le marché belge offre une grande variété de produits alimentaires, dont l’étiquetage fournit des informations essentielles pour la sécurité alimentaire et l’élaboration de politiques de sécurité alimentaire. Conformément aux réglementations européennes, une partie de ces informations est obligatoire, tandis que d’autres sont fournies volontairement sur les emballages. Parmi les éléments clés figurent :
- Les ingrédients (y compris les additifs alimentaires et leur fonction)
- La déclaration nutritionnelle (calories, fibres, protéines, lipides, sucres, …)
- Les allergènes
- Les allégations de santé
- Les dates de péremption
- Les labels volontaires (par ex. Nutri-Score)
Malgré leur importance, aucune base de données complète ne centralise ces informations. Le projet SCANFOODLABEL vise à combler cette lacune en créant une base de données de haute qualité regroupant les informations présentes sur les étiquettes des produits alimentaires commercialisés en Belgique.
Collecte et analyse des données
S’appuyant sur des projets scientifiques précédents, nous avons collecté des données sur un grand nombre de produits alimentaires en extrayant les informations disponibles sur les plateformes de vente en ligne. Dans la phase actuelle du projet, ce jeu de données comprend près de 100 000 produits uniques.
Toutefois, ces données brutes comportent inévitablement des incohérences et nécessitent un nettoyage et un traitement approfondis avant toute analyse. Pour accroître leur utilité, nous développons une méthodologie visant à :
- Générer des données structurées sur la présence et la fonction des additifs alimentaires en les inférant à partir du texte brut des ingrédients.
- Classer tous les produits alimentaires selon des systèmes de classification standardisés.
Scalabilité et automatisation
Bien que notre jeu de données initial soit déjà conséquent, le marché des produits alimentaires évolue en permanence, souvent rapidement. Maintenir la base de données à jour constitue donc un défi majeur. Les approches manuelles ou semi-automatisées deviennent rapidement insuffisantes face à un volume de données en constante augmentation.
Pour relever ce défi, nous développons des processus automatisés permettant de transformer les données brutes selon les exigences de notre base. À cette fin, nous explorons l’utilisation de l’intelligence artificielle (IA). Grâce à l’apprentissage automatique et à l’application de Large Language Models (LLM) pré-entraînés, nous pouvons exploiter efficacement de grands ensembles de données tout en évitant le travail manuel, irréalisable à cette échelle.
Expected Outcomes
Dans le cadre du projet, nous développerons un tableau de bord afin d’améliorer l’accessibilité aux données et de faciliter la prise de décisions basée sur les données. Cet outil permettra aux utilisateurs d’explorer et d’analyser les données de manière efficace, en soutenant les organismes de réglementation, les chercheurs et les décideurs. Ses principales fonctionnalités incluront la visualisation, l’analyse automatisée et des requêtes personnalisables, optimisées pour les besoins en matière de politique alimentaire et d’évaluation des risques.
Notre objectif à long terme est de développer davantage les techniques et processus explorés dans ce projet pilote afin de créer un cadre entièrement automatisé, intégrant l’acquisition systématique des données, leur traitement et leur classification.
Chercheurs de projet de Sciensano
Les services qui travaillent sur ce projet
Partenaires
