Soevereine AI: ondersteunende technologieën en cruciale digitale capaciteiten [NL]

Lees in: EN, FR, DE, ES, PT, IT, NL

Deze pagina is een vertaling van het oorspronkelijke Engelse artikel. Houd er rekening mee dat de navigatie alleen beschikbaar blijft in het Engels.

In aansluiting op onze eerdere bijdrage aan het debat over ondersteunende technologieën en soevereine fondsen, de oproep van de Commissie voor technologie- en infrastructuurveerkracht, Eurostack en het AI Continent Actieplan, hebben wij ons aangesloten bij een open oproep voor de inzet van cruciale digitale capaciteiten, die zowel de geopolitieke context als de intensiverende wereldwijde technologische race weerspiegelen. Onze bijdrage behandelde een breed scala aan modellen, systemen en componenten van de waardeketen, betrokken bij gebieden van AI-gedreven ondersteunende, publieke en mensgerichte technologieën en robotica, waaronder grote taalmodellen (large language models, LLM's) en kleine taalmodellen (small language models, SLM's), visie-taalmodellen (beeld-taalmodellen of VTM's), 3D-fundamentele modellen, belichaamde AI, haptiek en aansturing, simulatieomgevingen en meer.

Gerelateerd

1. Visie-taalmodellen (VTM's) voor toegankelijkheid en perceptie

VTM's zoals PaLI, Flamingo, OpenFlamingo en Segment Anything (SAM) tonen veelbelovende toepassingen voor realtime visueel begrip en ondertiteling die blinde gebruikers, autistische personen en gebruikers met cognitieve beperkingen ondersteunen. Deze modellen maken gebruik van transformatorarchitecturen met kruisaandachtmechanismen om visie- en tekstgegevens gelijktijdig te verwerken, waardoor geavanceerde multimodale redeneercapaciteiten mogelijk worden.

Door hun inzet kunnen visuele scènes direct worden beschreven en objecten worden herkend via real-time inferentiepijplijnen met een latentie van minder dan 100 ms op edge-apparaten. Daarnaast ondersteunen deze systemen multimodale gebruikersinterfaces die gebaren, beelden en gesproken taal integreren via uniforme inbeddingsruimten en aandacht-gebaseerde fusie-mechanismen. Bovendien bieden zij tools voor situationeel bewustzijn in publieke en privé-omgevingen, waarbij ruimtelijk redeneren en contextueel begrip worden geïntegreerd via semantische scènegrafieken.

Bijdrage:

  • Stimuleren van toegankelijkheidsgerichte VTM's getraind op diverse, open datasets (inclusief talen met weinig middelen en diverse omgevingen), met bijzondere aandacht voor de fijnafstemming op datasets voor ondersteunende technologieën die rolstoelnavigatie, visuele beperkingscenario's en cognitieve toegankelijkheidscontexten omvatten

  • Investeren in API-ontwikkeling voor VTM-gebaseerde ondersteunende tools, vooral die welke omgevingsgronding, tekst-naar-scène begrip en realtimeondertiteling mogelijk maken met gestandaardiseerde REST/GraphQL interfaces en WebRTC streamingprotocollen

  • Bevorderen van meertalige VTM's voor taalminderheden en onderbediende EU-bevolkingen, waarbij meertalig transferleren en taal-agnostische visuele representaties worden geïntegreerd

2. 3D-fundamentele modellen voor ruimtelijk redeneren en navigatie

3D-fundamentele modellen zoals Point-E, Shape-E, DreamFusion en HoloAssist maken semantisch scènebegrip, objectmanipulatie en realistische 3D-reconstructie mogelijk—belangrijke capaciteiten voor de volgende golf van autonome mobiliteitshulpmiddelen, prothetische navigatie en slimme thuisinterfaces. Deze modellen gebruiken neurale stralingsvelden (NeRFs), impliciete oppervlakterepresentaties en puntwolkverwerking om gedetailleerd 3D-begrip te creëren vanuit 2D-inputs.

De technische architectuur toont significante vooruitgang in 3D-generatiemethodologieën. Point-E genereert 3D-puntwolken via een tweestaps diffusieproces waarbij tekst-naar-beeld gevolgd wordt door beeld-naar-3D conversie, wat resulteert in een snelheidsverbetering van ongeveer 600× ten opzichte van concurrerende methoden. DreamFusion gebruikt Score Distillation Sampling (SDS) om NeRF-representaties te optimaliseren met behulp van 2D-diffusieprioriteiten, terwijl Shape-E impliciete functierepresentaties met conditionele diffusiemodellen gebruikt voor hogere-fideliteit 3D-assetgeneratie. Deze systemen integreren met SLAM (Simultaneous Localization and Mapping) algoritmen voor real-time ruimtelijk begrip.

Bijdrage:

  • Versterken van onderzoek naar 3D-affordance mapping, contextuele overlays en ruimtelijk redeneren om personen met fysieke beperkingen te helpen, waarbij tactiele terugkoppelingsynthese en haptische weergavetechnieken worden geïntegreerd

  • Inzetten op EU-brede datasets die realistische ondersteunende scenario's in binnen- en stedelijke ruimtes simuleren, waardoor betrouwbare 3D-modeltraining mogelijk wordt voor toepassing in prothesen, thuisrobotica en ruimtelijke begeleidingssystemen met gestandaardiseerde dataformaten (PLY, OBJ, GLTF) en semantische annotaties

  • Stimuleren van 3D-scènebegrippijplijnen die geometrische reconstructie combineren met semantische segmentatie voor verbeterde objectmanipulatie en navigatie-assistentie

3. LLM's en kleine taalmodellen (SLM's) voor adaptieve dialoog

Grote taalmodellen zoals GPT-4, Mistral en Phi, samen met compacte SLM's (minder dan 7 miljard parameters), bieden adaptieve redeneercapaciteiten, waardoor zij geschikt zijn voor ondersteunende agenten, zorgbegeleiders en ondersteuning bij chronische aandoeningen voor diverse bevolkingsgroepen, inclusief personen met spraak- of cognitieve beperkingen. Deze modellen benutten transformer-architecturen met aandachtsmechanismen geoptimaliseerd voor lang-context begrip en gepersonaliseerde aanpassing.

Technische implementatiestrategieën richten zich op inzetefficiëntie en personalisatiemogelijkheden. Kwantisatietechnieken, waaronder INT8 en INT4, maken efficiënte inzet mogelijk op apparaten met beperkte middelen, terwijl LoRA (Low-Rank Adaptation) en QLoRA-fijnafstemming gepersonaliseerde assistentie mogelijk maken zonder volledige modelheropleiding. De systemen ondersteunen contextlengtes tot 32K+ tokens voor het behouden van gespreksgeschiedenis en gebruikersvoorkeuren, en integreren met automatische spraakherkenning (ASR) en tekst-naar-spraak (TTS) systemen voor multimodale interactie.

Bijdrage:

  • Ondersteuning voor offline-capabele, energie-efficiënte taalmodellen die inzetbaar zijn in landelijke of laag-connectiviteit gezondheidszorgomgevingen, met focus op modelcompressietechnieken, federatieve leerbenaderingen en edge computing optimalisatie

  • Bevordering van adaptieve dialoogsystemen die gefragmenteerde, ruisachtige of ambigue gebruikersinvoer kunnen begrijpen—essentieel voor inclusief interactieontwerp, met robuuste foutcorrectie, intentieverduidelijking en contextuele herstelmechanismen

  • Investering in gepersonaliseerde ondersteunende redeneertools, waardoor LLMs zich kunnen aanpassen aan gebruikersvoorkeuren, geheugensteuntjes en evoluerende behoeften in de loop van de tijd via continu leren en geheugen-augmenterende architecturen

4. Belichaamde AI, Haptica en Aansturing

Om de kloof tussen cognitie en actie te overbruggen, moet AI communiceren met de fysieke wereld via geavanceerde sensorfusie- en besturingssystemen. Dit is cruciaal voor robotische zorg, draagbare ondersteunende apparaten en responsieve woonomgevingen die real-time aanpassing aan menselijke behoeften en omgevingsveranderingen vereisen.

De technische componenten omvatten uitgebreide sensomotorische integratiecapaciteiten. Multi-sensor fusie-architecturen combineren RGB-D camera's, IMU's, krachtsensoren en tactiele arrays om een rijke omgevingsperceptie te bieden. Real-time besturingssystemen bereiken sub-milliseconde responstijden voor veiligheidskritische toepassingen, terwijl machine learning-gebaseerde krachtregeling en impedantiemodulatie een zachte mens-robot interactie ondersteunen. Deze systemen functioneren via gedistribueerde computerarchitecturen die edge-gebaseerde verwerking en cloudcoördinatie mogelijk maken voor optimale prestaties en responsiviteit.

Bijdrage:

  • Versterking van R&D van modulaire actuatiesystemen, draagbare haptica en sensorfusie-architecturen die tactiele, visuele en krachtfeedback combineren met gestandaardiseerde communicatieprotocollen (CAN bus, EtherCAT, ROS) en interoperabele hardware-interfaces

  • Ondersteuning voor integratie van LiDAR, thermische beeldvorming en krachtsensoren in kosteneffectieve embedded platforms (ARM Cortex, NVIDIA Jetson, Raspberry Pi) voor ondersteunende robotica met open-source software stacks

  • Stimuleren van interdisciplinaire inzetpilots die cognitieve modellen integreren met fysieke hardware om dagelijkse levensondersteuning te demonstreren, inclusief gestandaardiseerde veiligheidsprotocollen en certificeringskaders

5. Sim2Real omgevingen voor veilige training en evaluatie

Simulators zoals Habitat, Isaac Sim en Gazebo maken veilige, schaalbare training van ondersteunende agenten in realistische omgevingen mogelijk voordat zij in de echte wereld worden ingezet. Deze platforms bieden fysisch nauwkeurige simulaties met fotorealistische weergave, waardoor uitgebreide testing van AI-systemen in gecontroleerde maar diverse scenario's mogelijk wordt.

De simulatiemogelijkheden omvatten geavanceerde modellerings- en testframeworks ontworpen voor uitgebreide AI-ontwikkeling. High-fidelity fysica engines, waaronder PhysX en Bullet, bieden nauwkeurige modellering van objectinteracties, terwijl fotorealistische weergave met ray tracing effectieve training van visuele perceptiesystemen mogelijk maakt. Deze platforms ondersteunen procedurele omgevingsgeneratie voor diverse scenario's en bevatten modellering van menselijk gedrag voor realistische interactiesimulatie. Daarnaast bieden zij hardware-in-the-loop testmogelijkheden om een naadloze sim-naar-real transfer voor ingezette systemen te ondersteunen.

Bijdrage:

  • Inzetten op open-access EU Sim2Real testbeds gemodelleerd rond ondersteunende use cases (bijv. valdetectie, keukennavigatie, prothesegebruik, slimme rolstoelrouting) met gestandaardiseerde API's en cloud-gebaseerde toegang voor onderzoekers en ontwikkelaars

  • Bevordering van gedeelde virtuele benchmarks die veilige AI-agent ontwikkeling in gezondheidszorg, thuiszorg en openbare dienstverlening versnellen, met gestandaardiseerde evaluatiemetrieken en certificeringsprotocollen

  • Stimulering van domeinrandomisatietechnieken om de robuustheid in de echte wereld te verbeteren en de kloof tussen simulatie en realiteit te verkleinen

6. Affordance-detectie en belichaamde perceptie

Datasets zoals Ego4D en BEHAVIOR modelleren hoe objecten in hun context worden gebruikt en begrepen, en bieden trainingsdata voor AI-systemen die de functionele relaties tussen mensen, objecten en omgevingen moeten begrijpen. Affordance-detectie (herkenning van bruikbare objectfuncties in context) speelt een cruciale rol in het ontwikkelen van AI-systemen die effectief kunnen functioneren in menselijke omgevingen.

Deze datasets bieden uitgebreide kenmerken voor contextuele AI-ontwikkeling. Ego4D biedt 3.670 uur aan first-person videogegevens met rijke temporele annotaties, terwijl BEHAVIOR meer dan 100 activiteiten in meer dan 50 binnenlocaties omvat met gedetailleerde objectstatusveranderingen. De datasets integreren effectief met objectdetectieframeworks, waaronder YOLO en R-CNN, evenals actieherkenningsmodellen, en ondersteunen de generatie van semantische scènegrafieken voor een beter contextueel begrip van mens-object-omgevingsinteracties.

Bijdrage:

  • Financiering van dataset curatie-inspanningen die praktijkaffordances vastleggen voor gebruikers met een handicap (bijv. rolstoelgebruikers, slechtzienden) met uitgebreide annotatiestandaarden, waaronder objecteigenschappen, toegankelijkheidsfuncties en gebruikspatronen

  • Ontwikkeling van modellen die assistieve-specifieke objectaffordances kunnen identificeren—bijv. welke hulpmiddelen bruikbaar zijn voor tandenpoetsen met één hand, of welke handvatten een veilige transfer vanuit bed mogelijk maken, rekening houdend met biomechanische beperkingen en veiligheidsoverwegingen

  • Investering in benchmarktaken om het begrip van affordances in ondersteunende contexten te evalueren met gestandaardiseerde meetcriteria en evaluatieprotocollen

7. Normen, testen en regelgevingsproeftuinen

De inzet van ondersteunende AI moet veilig, interoperabel en ethisch verantwoord zijn via uitgebreide testframeworks en regelgevend toezicht. EU-werk aan regelgevingsproeftuinen zal cruciaal zijn voor wereldwijd concurrentievermogen en publiek vertrouwen, terwijl veiligheidsnormen worden gewaarborgd.

De regelgevingskadervereisten moeten meerdere nalevingsdimensies omvatten die essentieel zijn voor verantwoorde inzet. Systemen moeten voldoen aan de eisen van de EU AI Act voor hoog-risico AI-systemen en integreren met medische hulpmiddelenregelgeving (MDR) voor gezondheidsgerelateerde toepassingen. Naleving van gegevensbescherming onder GDPR vereist speciale aandacht voor gevoelige gezondheidsgegevens, terwijl toegankelijkheidsnormen moeten voldoen aan EN 301 549 en WCAG 2.1 AA eisen. Bovendien zijn robuuste cyberbeveiligingskaders essentieel voor verbonden ondersteunende apparaten om gebruikersveiligheid en gegevensbeveiliging gedurende de hele levenscyclus van de inzet te waarborgen.

Bijdrage:

  • Lancering van regelgevingsproeftuinen specifiek voor ondersteunende en embodied AI (in lijn met de EU AI Act en aanstaande geharmoniseerde normen), die gecontroleerde omgevingen bieden voor het testen van naleving van veiligheids-, doeltreffendheids- en ethische vereisten

  • Ontwikkeling van testprotocollen voor veiligheid, transparantie en bias-mitigatie afgestemd op ondersteunende contexten, inclusief adversarial testing, evaluatie van randgevallen en beoordeling van betrouwbaarheid op lange termijn

  • Bevordering van interoperabiliteitskaders tussen software- en hardwareplatforms gebruikt in publieke en persoonlijke ondersteunende technologieën, door het vaststellen van gemeenschappelijke API's, dataformaten en communicatieprotocollen om vendor lock-in te voorkomen en gebruikerskeuze te waarborgen

Implementatietijdlijn en middelenvereisten

Wij voorzien een gefaseerde implementatiebenadering over 5-7 jaar:

Fase 1 (Jaren 1-2): Vestigen van regelgevingskaders, financieringsmechanismen en initiële onderzoeksinfrastructuur

Fase 2 (Jaren 3-4): Inzet van pilotprogramma's en testbeds terwijl kerntechnologieën worden ontwikkeld

Fase 3 (Jaren 5-7): Opschaling van succesvolle pilotprogramma's en wijdverspreide inzet in alle EU-lidstaten

Geschatte budgettoewijzing

  • 40% voor onderzoek en ontwikkeling van kern AI-technologieën

  • 25% voor infrastructuurontwikkeling (testbeds, datasets, normen)

  • 20% voor pilotprogramma's en praktijkvalidatie

  • 15% voor regelgevingsontwikkeling en nalevingskaders

Deze aanpak zou de positie van de EU op het gebied van publieke en ondersteunende technologieën kunnen verbeteren.

• • •

Referenties

¹ Europees Parlement en Raad van de Europese Unie. "Verordening (EU) 2024/1689 betreffende een Europese benadering voor kunstmatige intelligentie (AI Act)." Publicatieblad van de Europese Unie. 1 augustus 2024.

² Europees Parlement en Raad van de Europese Unie. "Verordening (EU) 2016/679 betreffende de bescherming van natuurlijke personen in verband met de verwerking van persoonsgegevens en betreffende het vrije verkeer van die gegevens (Algemene verordening gegevensbescherming)." Publicatieblad van de Europese Unie. 2016.

³ Europees Parlement en Raad van de Europese Unie. "Verordening (EU) 2017/745 betreffende medische hulpmiddelen." Publicatieblad van de Europese Unie. 2017.

⁴ World Wide Web Consortium (W3C). "Richtlijnen voor Toegankelijkheid van Webcontent (WCAG) 2.1." W3C Aanbeveling. 2018.

⁵ Europees Instituut voor Telecommunicatienormen (ETSI). "EN 301 549 V3.2.1 (2021-03) Toegankelijkheidseisen voor ICT-producten en -diensten." ETSI Normen. 2021.

⁶ IEEE Computer Society. "IEEE Conferentie over Computervisie en Patroonherkenning." Jaarlijkse conferentieverslagen. 2022.