主权人工智能：公共与辅助技术（机器人与实体人工智能组）[ZH]

阅读语言：EN、ZH

本页面为原始英文文章的翻译版本。请注意，导航功能仍仅提供英文。

呼应我们此前就公共技术与主权基金议题提出的意见以及欧盟委员会关于提升技术与基础设施韧性的倡议，我们参与了一项关于关键数字能力部署的公开征集，该行动既反映了地缘政治背景，也体现了日益激烈的全球技术竞争。我们的意见涵盖了价值链中广泛的模型、系统及组件，涉及人工智能驱动的公共技术、人机交互技术及机器人技术等领域，包括大型语言模型（LLMs）与小型语言模型、视觉语言模型（VLMs）、3D基础模型、具身人工智能、触觉反馈与执行机构、仿真环境等。

我们的意见旨在补充更广治技术与政策生态系统中的相关工作与交流。随着辅助技术在医疗、教育及公共领域日益复杂化和模块化，其面临多重挑战：现有环境中的无缝互操作性；计算需求限制了其在资源受限设备上的部署；获取能代表多样化人群的、适用于VLM和3D基础模型的专用数据集；以及在保持实时性能和准确性的同时，整合复杂的AI流水线（感知→推理→执行→测试→安全）。

1. 用于无障碍与感知任务的视觉语言模型（VLMs）

PaLI、Flamingo、OpenFlamingo和Segment Anything（SAM）等VLM在实时视觉理解和字幕生成应用方面展现出巨大潜力，可协助视障用户、自闭症患者及认知障碍用户。这些模型利用具有交叉注意力机制的Transformer架构处理交织的视觉和文本数据，实现复杂的多模态推理能力。

部署这些模型，可利用实时推理流水线实现即时的视觉场景叙述和目标识别，其优化后的推理时间适用于边缘设备上的实时应用。此外，这些系统通过统一的嵌入空间和基于注意力的融合机制，支持整合手势、图像和口语的多模态用户界面。这些模型还通过语义场景图提供空间推理和上下文理解能力，支持公共场所和家庭环境中的情境感知工具。

意见：

支持以无障碍功能为核心的VLM，基于多样化的开放数据集（涵盖低资源语言及多元化环境）进行训练，并特别关注辅助技术数据集的微调，包括轮椅导航、视障场景及认知无障碍情境
支持开发基于VLM的辅助工具API，尤其是那些通过标准化REST/GraphQL接口和WebRTC流媒体协议实现环境锋定、文本到场景理解及实时字幕生成功能的工具
推进多语言VLM以服务语言少数群体及欧盟资源区小人群，融入跨语言迁移学习和语言无关视觉表示

2. 用于空间推理与导航的3D基础模型

Point-E、Shape-E和DreamFusion等3D模型能够实现语义场景理解、目标操作和真实世界3D重建——这些是下一代自主轮动辅具、假肢导航和智能家居界面的重要能力。这些模型利用神经辐射场（NeRF）、隐式曲面表示和点云处理技术，从2D输入构建详细的3D理解。

该技术架构在3D生成方法论上展现了显著进步。Point-E通过两阶段扩散过程生成点3D点云，包括文本到图像转换及随后的图像刻3D转换，速度较竞争方式提升约600倍。DreamFusion利用分数蒸馏采样（SDS）技术，结合基于2D扩散的先验信息优化NeRF表示；Shape-E则采用隐式函数表示与条件扩散模型相结合，以生成更高保真度的3D资产。这些系统与SLAM（同步定位与地图构建）算法集成，实现实时空间理解。

意见：

优先开展化3D可及性映射、情境叠加及空间推理的研究，以辅助肢体残障人士，并融入触觉反馈合成与触觉渲染技术
创建覆盖全欧盟的数据集，模拟室内及城市空间中的真实辅助场景，通过标准化数据格式（PLY、OBJ、GLTF）和语义注释，支持可靠的3D模型训练，应用于假肢、家用机器人及空间引导系统
开取3D场景理解流水线，将几何重建与语义分割相结合，以增强目标操控和导航辅助能力

3. 用于自适应对话的大语言模型（LLMs）与小型语言模型（SLMs）

GPT-4、Mistral和Phi等大型语言模型，以及紧凑型SLM（参数量低与70亿），具备自适应推理能力，可能适用于服务多元化人群（包括存在语言或认知障碍者）的辅助代理、护理伴侣和慢性病症支持系统。这些模型利用了针对长上下文理解和个性化适应进行优化的注意力机制Transformer架构。

技术实现策略侧重部署效率和个性化能力。INT8和INT4等量化技术支持在资源受限的设备上高效部署，而LoRA（低秩适应）和QLoRA微调技术则无需重新训练完整模型即可实现个性化辅助。这些系统支持长达32K+标识符的上下文长度，以保留对话历史和用户偏好，并集成自动语音识别（ASR）和文本转语音（TTS）系统以实现多模态交互。

意见：

支持可在农村或网络连接较差的医疗环境中部署的、具备离线能力且节能的语言模型，侧重模型压缩技术、联邦学习方法和边缘计算优化
支持开发能够理解碎片化、噪杂或模糊用户输入的自适应对话系统——这对包容性交互设计至关重要，需整合强大的错误纠正、意图消歧和上下文修复机制
推广个性化辅助推理工具，使大型语言模型能够通过持续学习和增强记忆的架构，随时间推移适应用户偏好、记忆线索及不断变化的需求

4. 具身人工智能、触觉反馈与执行控制

为弥合认知与行动之间的鸿沟，人工智能必须通过复杂的传感器融合和控制系统与物理世界进行交互。这对机器人护理、可穿戴辅助设备以及需要实时适应人类需求和环境变化的响应式家居环境至关重要。

技术组件涵盖全面的感知运动整合能力。多传感器融合架构结合了RGB-D相机、IMU、力传感器和触觉阵列，以提供丰富的环境感知。实时控制系统可实现快速响应：针对安全关键型应用，内部控制循环以高速运行，完整系统周期响应时间控制在低毫秒级别；基于机器学习的力控制支持温和的人机交互。这些系统通过分布式计算架构运行，该架构支持边缘计算与云端协同，以实现最优性能和响应速度。

意见：

支持模块化执行系统、可穿戴触觉设备以及传感器融合架构的研发，这些架构将触觉、视觉和力反馈与标准化通信协议（CAN总线、EtherCAT、ROS）及互操作性硬件接口相结合
支持将激光雷达、热成像和力传感器集成到性价比高的嵌入式平台（ARM Cortex、NVIDIA Jetson、Raspberry Pi），用于配备开源软件栈的辅助机器人
鼓励开展跨学科部署试点，将认知模型与物理硬件集成，以展示日常生活辅助功能，包括标准化安全协议和认证框架

5. 用于安全训练与评估的Sim2Real环境

Habitat、Isaac Sim和Gazebo等仿真器可在真实环境中对辅助代理进行安全、可扩展的训练，为实际部署做好准备。这些平台提供物理精确的仿真和逃真实的渲染效果，支持在受控且多样化的场景中对AI系统进行全面测试。

其仿真能力涵盖了为全面AI开发设计的先进建模与测试框架。PhysX和Bullet等高保真度物理引擎提供精确的目标交互建模，而基于光线追踪的逼真实渲染则能有效训练视觉感知系统。这些平台支持程序化环境生成以涵盖多样化场景，并融入人类行为建模以实现逼真实的交互仿真。此外，这些平台还提供硬件在环测试能力，支持已部署系统实现仿真到现实的无缝过渡。

意见：

建立开放访问的欧盟Sim2Real测试平台，围绕辅助应用场景（如跌倒检测、厨房导航、假肢使用、智能轮椅路径规划）构建，并为研究人员和开发者提供标准化API及基于云的访问权限
创建共享虚拟基准，加速医疗、家庭及公共服务领域安全AI代理的开发，包含标准化评估指标和认证协议
开发领域随机化技术，以提升真实世界中的鲁棒性并缩小仿真与现实之间的差距

6. 可用性检测与具身感知

Ego4D和BEHAVIOR等数据集模拟了物体在特定情境下的使用和理解方式，为必须理解人类、物体和环境之间功能关系的AI系统提供了训练数据。

这些数据集为情境化AI开发提供了全面的特征。Ego4D提供了3,670小时带有丰富时间注释的第一人称视频数据，而BEHAVIOR涵盖了多个室内场景中100多种活动，并记录了详细的物体状态变化。这些数据集可与YOLO和R-CNN等目标检测框架以及动作识别模型有效集成，并支持语义场景图生成，以增强对人—物—环境交互的情境理解。

意见：

资助数据集整理工作，通过包括物体属性、无障碍特征及使用模式在内的全面标注标准，捕捉残障用户（如轮椅使用者、低视力人群）在真实世界中的可用性
开发能够识别辅助性特定物体可用性的模型——例如哪些工具可用于单手刷牙，或哪些把手在安全转身离床时提供支撑，并融入生物力学约束和安全考量
创建基准任务，通过标准化指标和评估协议，评估辅助场景中的可用性理解能力

7. 标准、测试与监管沙盒

辅助型AI的部署必须通过全面的测试框架和监管监督，确保安全、互操作且符合伦理规范。欧盟在监管沙盒方面的工作对于确保安全标准的同时提升全球竞争力和公众信任至关重要。

监管框架要求应涵盖责任部署所必需的多个合规维度。系统必须符合《欧盟AI法案》对高风险AI系统的要求，并针对健康相关应用与《医疗器械法规》（MDR）进行整合。根据《通用数据保护条例》（GDPR）的数据保护合规要求需对敏感健康数据给予特别关注；而无障碍标准合规性必须达到EN 301 549和WCAG 2.1 AA的要求。此外，对于联网辅助设备而言，健全的网络安全框架至关重要，以确保在整个部署生命周期内保障用户安全与数据安全。

意见：

启动专门针对辅助型和具身人工智能的监管测试平台（符合《欧盟AI法案》及即将出台的协调标准），为测试安全、有效性和伦理要求提供受控环境
制定针对辅助场景安全性、透明度和偏见缓解的测试协议，包括对抗性测试、边界情况评估和长期可靠性评估
鼓励建立涵盖公共及个人辅助技术所使用软硬件平台的互操作性框架，确立通用API、数据格式和通信协议，以防止供应商锁定并保障用户选择权

此外，还需考量辅助AI系统的能源容量及可持续运行要求，因为此类系统在许多情况下需要持续运行。与此同时，当前AI模型在电池供电设备上消耗过多电能，导致用户需求与技术能力之间存在差距。基于电池电量动态调整模型复杂度的动态功耗调节方法尚不成熟，而推理调度必须在即时响应需求与长期运行要求之间取得平衡。因此，研发应优先考虑能耗比例计算框架和预测性功耗管理，并与性能和准确性并重。这些能耗考量对于资源受限的环境或需要持续监测与支持的环境尤为重要。

实施时间表与资源需求

我们设想采卶5至7年的分阶段实施路径：

第一阶段（1–2年）：建立监管框架、融资机制及初步研究基础设施
第二阶段（3–4年）：部署试点项目和测试平台，同时开发核心技术
第三阶段（5–7年）：扩大成功试点的规模，并在欧盟成员国实现广治部署

预算分配估算

40%用于核心AI技术的研发
25%用于基础设施建设（测试平台、数据集、标准）
20%用于试点项目及实际应用验证
15%用于监管体系构建与合规框架

这一方案有望提升欧盟在公共及辅助技术领域的地位。

• • •

参考文献

¹ 欧洲议会和欧盟理事会。《第2024/1689号欧盟条例（人工智能法案）》。《欧盟官方公报》。2024年8月1日。

² 欧洲议会和欧盟理事会。《第2016/679号欧盟条例（通用数据保护条例）》。《欧盟官方公报》。2016年。

³ 欧洲议会和欧盟理事会。《第（EU） 2017/745号欧盟条例（医疗器械法规）》。《欧盟官方公报》。2017年。

⁴ 万维网联盟（W3C）。《网络内容无障碍指南（WCAG） 2.1》。W3C建议。2018年。

⁵ 欧洲电信标准协会（ETSI）。《EN 301 549 V3.2.1（2021-03）信息通信技术产品与服务的无障碍要求》。ETSI标准。2021年。

⁶ 电气电子工程师学会计算机学会（IEEE Computer Society）。《IEEE计算机视觉与模式识别会议》。年度会议论文集。2022年。