IA souveraine : technologies d'assistance et capacités numériques critiques [FR]

Disponible en : EN, FR, DE, ES, PT, IT, NL

Cette page est une traduction de l'article original en anglais. Veuillez noter que la navigation reste disponible uniquement en anglais.

Faisant suite à notre contribution antérieure au débat relatif aux technologies d'assistance et aux fonds souverains, et en réponse à l'appel de la Commission européenne concernant la résilience technologique et des infrastructures, Eurostack, ainsi que le Plan d'Action pour un Continent de l'IA, nous avons répondu à une consultation ouverte sur le déploiement des capacités numériques critiques. Cette intervention reflète à la fois le contexte géopolitique actuel et l'intensification de la compétition technologique mondiale. Notre contribution couvre un large éventail de modèles, systèmes et composants de la chaîne de valeur, appliqués aux technologies assistives, aux services publics et aux solutions technologiques centrées sur l'humain reposant sur l'intelligence artificielle (IA) et la robotique. Elle inclut les grands modèles de langage (Large Language Models, LLM) et petits modèles de langage (Small Language Models, SLM), les modèles vision-langage (VLM), les modèles fondamentaux 3D, l'IA incarnée, l'haptique et l'actionnement, les environnements de simulation, et bien plus encore.

Notre contribution devrait compléter les travaux et échanges au sein de l'écosystème technique et politique plus large. À mesure que les technologies d'assistance deviennent plus complexes et modulaires dans les secteurs de la santé, de l'éducation et des services publics, elles présentent de multiples défis : l'interopérabilité transparente au sein des environnements existants, les exigences informatiques limitant le déploiement sur des dispositifs aux ressources limitées, l'accès à des ensembles de données spécialisés pour les VLM et les modèles fondamentaux 3D représentant des populations diverses, et l'intégration de pipelines IA complexes (Détection → Raisonnement → Action → Test → Sécurité) tout en maintenant des performances et une précision en temps réel.

Thèmes connexes

1. Modèles vision-langage (VLM) pour l'accessibilité et la perception

Les VLM tels que PaLI, Flamingo, OpenFlamingo et Segment Anything (SAM) démontrent un potentiel pour des applications de compréhension visuelle et de sous-titrage en temps réel, au service des personnes aveugles, autistes ou présentant des troubles cognitifs. Ces modèles exploitent des architectures de transformateurs dotées de mécanismes d'attention croisée pour traiter des données visuelles et textuelles de manière intégrée, permettant un raisonnement multimodal avancé.

Leur déploiement permet une narration instantanée de scènes visuelles et la reconnaissance d'objets via des pipelines d'inférence en temps réel qui atteignent des temps d'inférence optimisés adaptés aux applications en temps réel sur des dispositifs en périphérie. Ces systèmes prennent en charge des interfaces utilisateur multimodales intégrant gestes, images et langue parlée par le biais d'espaces d'intégration unifiés et de mécanismes de fusion basés sur l'attention. Ils fournissent également des outils de conscience situationnelle dans les espaces publics et domestiques, incorporant le raisonnement spatial et la compréhension contextuelle via des graphes sémantiques de scènes.

Contributions proposées :

  • Soutenir le développement de VLM centrés sur l'accessibilité, entraînés sur des jeux de données ouverts et inclusifs (langues à faibles ressources, environnements diversifiés), notamment pour la navigation en fauteuil roulant, la déficience visuelle et les contextes cognitifs

  • Promouvoir des API standardisées (REST/GraphQL) pour outils d'assistance VLM avec prise en charge du streaming WebRTC en temps réel et des interfaces de programmation interopérables

  • Développer des VLM multilingues au service des minorités linguistiques de l'UE via l'apprentissage interlinguistique et des représentations visuelles neutres du point de vue linguistique

2. Modèles fondamentaux 3D pour le raisonnement spatial et la navigation

Les modèles fondamentaux 3D tels que Point-E, Shape-E, DreamFusion et HoloAssist facilitent la reconstruction réaliste du monde réel, la manipulation d'objets et la navigation autonome — capacités importantes pour la prochaine génération d'aides à la mobilité autonome, de navigation prothétique et d'interfaces domestiques intelligentes. Employant des champs de radiance neuronaux (NeRF), des représentations implicites de surfaces et le traitement de nuages de points, ces systèmes permettent une compréhension spatiale fine à partir d'entrées 2D.

L'architecture technique démontre des avancées remarquables dans les méthodologies de génération 3D. Point-E génère des nuages de points 3D via un processus de diffusion en deux étapes impliquant une conversion texte-vers-image suivie d'une conversion image-vers-3D, atteignant une amélioration de vitesse d'environ 600× par rapport aux méthodes concurrentes. DreamFusion utilise l'échantillonnage par distillation de score (SDS) pour optimiser les représentations NeRF en utilisant des prieurs de diffusion 2D, tandis que Shape-E emploie des représentations de fonctions implicites avec des modèles de diffusion conditionnels pour la génération d'actifs 3D de haute fidélité.

Contributions proposées :

  • Prioriser la recherche sur la cartographie des affordances 3D (possibilités d'action offertes par les objets dans un contexte donné), les superpositions contextuelles et le raisonnement spatial pour aider les personnes en situation de handicap physique, intégrant la rétroaction haptique et les techniques de rendu tactile

  • Établir des jeux de données à l'échelle de l'UE simulant des situations assistives en milieux intérieurs et urbains, avec annotations sémantiques standardisées (PLY, OBJ, GLTF), permettant un entraînement fiable des modèles 3D pour le déploiement en prothétique, robotique domestique et systèmes de guidage spatial

  • Développer des pipelines de compréhension de scènes 3D combinant reconstruction géométrique et segmentation sémantique pour des systèmes d'assistance à la navigation, ainsi qu'à la manipulation d'objets

3. Grands et petits modèles de langage pour le dialogue adaptatif

Les grands modèles de langage comme GPT-4, Mistral et Phi, ainsi que les SLM compacts (moins de 7 milliards de paramètres), offrent des capacités de raisonnement adaptatif, les rendant potentiellement appropriés pour les agents d'assistance, les compagnons de soins et le soutien aux conditions chroniques servant des populations diverses, y compris celles présentant des troubles de la parole ou cognitifs. Ces modèles exploitent des architectures de transformateurs avec des mécanismes d'attention optimisés pour la compréhension de contextes longs et l'adaptation personnalisée.

Les stratégies d'implémentation technique se concentrent sur l'efficacité de déploiement et les capacités de personnalisation. Les techniques de quantification, notamment INT8 et INT4, permettent un déploiement efficace sur des dispositifs à ressources limitées, tandis que l'ajustement fin LoRA (Low-Rank Adaptation) et QLoRA permettent une assistance personnalisée sans réentraînement complet du modèle. Les systèmes prennent en charge des longueurs de contexte s'étendant jusqu'à plus de 32 000 jetons afin de maintenir l'historique des conversations et les préférences utilisateur, et s'intègrent avec des systèmes de reconnaissance automatique de la parole (ASR) et de synthèse vocale (TTS) pour l'interaction multimodale.

Contributions proposées :

  • Soutenir les modèles de langage hors ligne et économes en énergie déployables dans des environnements de santé ruraux ou à faible connectivité, en se concentrant sur les techniques de compression de modèles, les approches d'apprentissage fédéré et l'optimisation de l'informatique en périphérie

  • Promouvoir le développement de systèmes de dialogue adaptatifs capables de comprendre des entrées utilisateur fragmentées, bruitées ou ambiguës — essentiels pour la conception d'interactions inclusives, incorporant une correction d'erreurs robuste, la désambiguïsation d'intentions et des mécanismes de réparation contextuelle

  • Développer des outils de raisonnement assistif personnalisés, permettant aux LLM de s'adapter aux préférences utilisateur, aux indices de mémoire et aux besoins évolutifs au fil du temps grâce à l'apprentissage continu et aux architectures mémoire augmentée

4. IA incarnée, haptique et actionnement

Pour combler le fossé entre cognition et action, l'IA doit interagir avec le monde physique via des systèmes sophistiqués de fusion de capteurs et de contrôle. Ceci est critique pour les soins robotiques, les dispositifs d'assistance portables et les environnements domestiques réactifs qui nécessitent une adaptation en temps réel aux besoins humains et aux changements environnementaux.

Les composants techniques englobent des capacités complètes d'intégration sensorimotrice. Les architectures de fusion multi-capteurs combinent caméras RGB-D, IMU, capteurs de force et matrices tactiles pour fournir une perception environnementale riche. Les systèmes de contrôle en temps réel atteignent des temps de réponse rapides, avec des boucles de contrôle internes fonctionnant à haute vitesse et des cycles système complets répondant dans des plages de faibles millisecondes pour les applications critiques de sécurité, tandis que le contrôle de force basé sur l'apprentissage automatique supporte une interaction humain-robot douce. Ces systèmes opèrent via des architectures informatiques distribuées permettant le traitement en périphérie et la coordination cloud pour des performances et une réactivité optimales.

Contributions proposées :

  • Soutenir la R&D de systèmes d'actionnement modulaires, de dispositifs haptiques portables et d'architectures de fusion de capteurs combinant rétroaction tactile, visuelle et de force avec des protocoles de communication standardisés (bus CAN, EtherCAT, ROS) et des interfaces matérielles interopérables

  • Encourager l'intégration de LiDAR, imagerie thermique et capteurs de force dans des plateformes embarquées économiques (ARM Cortex, NVIDIA Jetson, Raspberry Pi) pour la robotique d'assistance avec des piles logicielles open source

  • Promouvoir des projets pilotes de déploiement interdisciplinaires intégrant modèles cognitifs et matériel physique pour démontrer le soutien à la vie quotidienne, incluant des protocoles de sécurité standardisés et des cadres de certification

5. Environnements sim2real pour la formation et l'évaluation sécurisées

Les simulateurs comme Habitat, Isaac Sim et Gazebo permettent une formation sûre et évolutive d'agents d'assistance dans des environnements réalistes avant le déploiement réel. Ces plateformes fournissent des simulations physiquement précises avec rendu photoréaliste, permettant des tests complets des systèmes IA dans des scénarios contrôlés mais diversifiés.

Les capacités de simulation englobent des cadres avancés de modélisation et de test conçus pour le développement IA complet. Les moteurs physiques haute fidélité, incluant PhysX et Bullet, fournissent une modélisation précise des interactions d'objets, tandis que le rendu photoréaliste avec lancer de rayons permet un entraînement efficace des systèmes de perception visuelle. Ces plateformes supportent la génération procédurale d'environnements pour une couverture de scénarios diversifiés et incorporent la modélisation comportementale humaine pour une simulation d'interaction réaliste. De plus, elles offrent des capacités de test matériel-en-boucle pour supporter un transfert sim-vers-réel transparent pour les systèmes déployés.

Contributions proposées :

  • Établir des bancs d'essai sim2real en libre accès à l'échelle de l'UE modélisés autour de cas d'usage d'assistance (par exemple, détection de chutes, navigation de cuisine, usage prothétique, routage intelligent de fauteuils roulants) avec des API standardisées et un accès basé sur le cloud pour les chercheurs et développeurs

  • Créer des références virtuelles partagées qui accélèrent le développement sécurisé d'agents IA dans les domaines de la santé, du foyer et des services publics, incorporant des métriques d'évaluation standardisées et des protocoles de certification

  • Développer des techniques de randomisation de domaine pour améliorer la robustesse réelle et réduire l'écart simulation-vers-réalité

6. Détection des affordances et perception incarnée

Les ensembles de données comme Ego4D et BEHAVIOR modélisent comment les objets sont utilisés et compris en contexte, fournissant des données d'entraînement pour les systèmes IA qui doivent comprendre les relations fonctionnelles entre humains, objets et environnements. La détection des affordances (possibilités d'action que les objets offrent dans un contexte spécifique) est essentielle pour développer des systèmes IA capables d'opérer efficacement dans des environnements humains.

Ces ensembles de données offrent des caractéristiques complètes pour le développement d'IA contextuelle. Ego4D fournit 3 670 heures de données vidéo en première personne avec de riches annotations temporelles, tandis que BEHAVIOR englobe 100+ activités à travers de multiples scènes intérieures avec des changements d'état d'objets détaillés. Les ensembles de données s'intègrent efficacement avec des cadres de détection d'objets incluant YOLO et R-CNN ainsi que des modèles de reconnaissance d'actions, et supportent la génération de graphes sémantiques de scènes pour une compréhension contextuelle améliorée des interactions humain-objet-environnement.

Contributions proposées :

  • Financer des efforts de curation d'ensembles de données capturant les affordances du monde réel pour les utilisateurs en situation de handicap (par exemple, utilisateurs de fauteuils roulants, personnes malvoyantes) avec des standards d'annotation complets incluant propriétés d'objets, caractéristiques d'accessibilité et modèles d'usage

  • Développer des modèles pouvant identifier les affordances spécifiques d'objets d'assistance — par exemple, quels outils sont utilisables pour se brosser les dents d'une seule main, ou quelles poignées supportent un transfert sûr depuis un lit, incorporant contraintes biomécaniques et considérations de sécurité

  • Élaborer des tâches de référence pour évaluer la compréhension des affordances dans des contextes d'assistance avec des métriques standardisées et des protocoles d'évaluation

7. Normes, tests et environnements d'essai réglementaires

Le déploiement de l'IA d'assistance doit être sûr, interopérable et éthiquement conforme via des cadres de test complets et une supervision réglementaire. Le travail de l'UE sur les environnements d'essai réglementaires sera critique pour la compétitivité mondiale et la confiance publique tout en garantissant les standards de sécurité.

Les exigences du cadre réglementaire doivent englober plusieurs dimensions de conformité essentielles pour un déploiement responsable. Les systèmes doivent atteindre la conformité avec les exigences du Règlement IA de l'UE pour les systèmes IA à haut risque et s'intégrer avec les réglementations de dispositifs médicaux (MDR) pour les applications liées à la santé. La conformité à la protection des données sous le RGPD nécessite une considération spéciale pour les données de santé sensibles, tandis que la conformité aux standards d'accessibilité doit répondre aux exigences EN 301 549 et WCAG 2.1 AA. De plus, des cadres de cybersécurité robustes sont essentiels pour les dispositifs d'assistance connectés afin de garantir la sécurité des utilisateurs et des données tout au long du cycle de vie de déploiement.

Contributions proposées :

  • Lancer des environnements d'essai réglementaires spécifiquement pour l'IA d'assistance et incarnée (en ligne avec le Règlement IA de l'UE et les standards harmonisés à venir), fournissant des environnements contrôlés pour tester la conformité aux exigences de sécurité, d'efficacité et éthiques

  • Développer des protocoles de test pour la sécurité, la transparence et l'atténuation des biais adaptés aux contextes d'assistance, incluant les tests adversaires, l'évaluation de cas limites et l'évaluation de fiabilité à long terme

  • Promouvoir des cadres d'interopérabilité entre plateformes logicielles et matérielles utilisées dans les technologies d'assistance publiques et personnelles, établissant des API communes, formats de données et protocoles de communication pour prévenir le verrouillage fournisseur et garantir le choix utilisateur

De plus, il est nécessaire de prendre en compte les capacités énergétiques et les exigences d'exploitation durable pour les systèmes d'IA d'assistance, qui dans de nombreux cas nécessitent un fonctionnement continu. En même temps, les modèles d'IA actuels consomment une puissance excessive pour les dispositifs alimentés par batterie, créant des écarts entre les besoins des utilisateurs et les capacités techniques. Les méthodes de mise à l'échelle dynamique de la puissance qui adaptent la complexité du modèle en fonction du niveau de batterie restent sous-développées, tandis que la planification d'inférence doit équilibrer les besoins de réponse immédiate avec les exigences d'exploitation à long terme. Ainsi, la R&D devrait prioriser les cadres informatiques proportionnels à l'énergie et la gestion prédictive de l'énergie aux côtés des performances et de la précision. Ces considérations énergétiques sont spécifiquement bénéfiques pour les environnements à ressources limitées ou ceux nécessitant une surveillance et un soutien continus.

Calendrier de mise en œuvre et exigences de ressources

Nous envisageons une approche de mise en œuvre par phases sur 5-7 ans :

Phase 1 (Années 1-2) : Établir les cadres réglementaires, mécanismes de financement et infrastructure de recherche initiale

Phase 2 (Années 3-4) : Déployer les programmes pilotes et bancs d'essai tout en développant les technologies fondamentales

Phase 3 (Années 5-7) : Mettre à l'échelle les pilotes réussis et atteindre un déploiement généralisé à travers tous les États membres de l'UE

Allocation budgétaire estimée

  • 40% pour la recherche et développement des technologies IA fondamentales

  • 25% pour le développement d'infrastructures (bancs d'essai, ensembles de données, normes)

  • 20% pour les programmes pilotes et validation en conditions réelles

  • 15% pour le développement réglementaire et cadres de conformité

Cette approche pourrait améliorer la position de l'UE dans le domaine des technologies publiques et d'assistance.

• • •

Références

¹ Parlement européen et Conseil de l'Union européenne. « Règlement (UE) 2024/1689 sur une approche européenne de l'intelligence artificielle (Règlement sur l'IA). » Journal officiel de l'Union européenne. 1er août 2024.

² Parlement européen et Conseil de l'Union européenne. « Règlement (UE) 2016/679 relatif à la protection des personnes physiques à l'égard du traitement des données à caractère personnel et à la libre circulation de ces données (Règlement général sur la protection des données). » Journal officiel de l'Union européenne. 2016.

³ Parlement européen et Conseil de l'Union européenne. « Règlement (UE) 2017/745 relatif aux dispositifs médicaux. » Journal officiel de l'Union européenne. 2017.

⁴ World Wide Web Consortium (W3C). « Règles pour l'accessibilité des contenus Web (WCAG) 2.1. » Recommandation W3C. 2018.

⁵ Institut européen des normes de télécommunications (ETSI). « EN 301 549 V3.2.1 (2021-03) Exigences d'accessibilité applicables aux produits et services TIC. » Normes ETSI. 2021.

⁶ IEEE Computer Society. « Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes. » Actes de conférence annuels. 2022.