IA soberana: tecnologías de asistencia y capacidades digitales críticas [ES]

Leer en: EN, FR, DE, ES, PT, IT, NL

Esta página es una traducción del artículo original en inglés. Tenga en cuenta que la navegación permanece disponible únicamente en inglés.

Haciéndonos eco de nuestra anterior aportación al debate sobre las tecnologías de asistencia y los fondos soberanos, el llamamiento de la Comisión a la resiliencia tecnológica e infraestructural, Eurostack y el Plan de Acción para la IA en Europa, nos hemos sumado a una convocatoria abierta sobre el despliegue de capacidades digitales críticas, que refleja tanto el contexto geopolítico como la intensificación de la carrera tecnológica mundial.

Nuestra aportación abordó una amplia gama de modelos, sistemas y componentes de la cadena de valor relacionados con áreas de tecnologías asistivas, públicas y conectadas con las personas impulsadas por la IA y la robótica, incluidos los grandes modelos de lenguaje (large language models, LLM) y los pequeños modelos de lenguaje (small language models, SLM), los modelos de visión-lenguaje (VLM), los modelos fundacionales 3D, la IA incorporada, la háptica y la actuación, los entornos de simulación y mucho más.

Relacionado

1. Modelos de visión-lenguaje (VLM) para la accesibilidad y la percepción

Los VLM, como PaLI, Flamingo, OpenFlamingo y Segment Anything (SAM), son prometedores para aplicaciones de comprensión visual y subtitulación en tiempo real que ayudan a usuarios ciegos, personas con autismo y usuarios con discapacidades cognitivas. Estos modelos aprovechan las arquitecturas de transformadores con mecanismos de atención cruzada para procesar datos de visión y texto intercalados, lo que permite sofisticadas capacidades de razonamiento multimodal.

Su implementación puede permitir la narración instantánea de escenas visuales y el reconocimiento de objetos mediante procesos de inferencia en tiempo real que alcanzan una latencia inferior a 100 ms en dispositivos periféricos. Además, estos sistemas admiten interfaces de usuario multimodales que integran gestos, imágenes y lenguaje hablado a través de espacios de incrustación unificados y mecanismos de fusión basados en la atención. Por otra parte, proporcionan herramientas de conciencia situacional en espacios públicos y en el hogar, incorporando el razonamiento espacial y la comprensión contextual a través de gráficos semánticos de escenas.

Aportación:

  • Apoyar los VLM centrados en la accesibilidad entrenados con conjuntos de datos diversos y abiertos (incluidos los idiomas con pocos recursos y entornos diversos), prestando especial atención al ajuste fino de los conjuntos de datos de tecnología de asistencia que contienen navegación en silla de ruedas, escenarios de discapacidad visual y contextos de accesibilidad cognitiva

  • Promover el desarrollo de API para herramientas de asistencia basadas en VLM, especialmente aquellas que permiten la orientación ambiental, la comprensión de texto a escena y la subtitulación en tiempo real con interfaces REST/GraphQL estandarizadas y protocolos de streaming WebRTC

  • Desarrollar los VLM multilingües para las minorías lingüísticas y las poblaciones desfavorecidas de la UE, incorporando el aprendizaje interlingüístico por transferencia y representaciones visuales independientes del idioma

2. Modelos fundacionales 3D para el razonamiento espacial y la navegación

Los modelos fundacionales 3D como Point-E, Shape-E, DreamFusion y HoloAssist permiten la comprensión semántica de escenas, la manipulación de objetos y la reconstrucción 3D realística, capacidades importantes para la próxima ola de ayudas a la movilidad autónoma, la navegación protésica y las interfaces domésticas inteligentes. Estos modelos emplean campos de radiación neural (NeRF), representaciones implícitas de superficies y procesamiento de nubes de puntos para crear una comprensión 3D detallada a partir de entradas 2D.

La arquitectura técnica demuestra avances notables en las metodologías de generación 3D. Point-E genera nubes de puntos 3D a través de un proceso de difusión en dos etapas que implica la conversión de texto a imagen y, a continuación, de imagen a 3D, lo que supone una mejora de la velocidad de aproximadamente 600 veces con respecto a los métodos de la competencia. DreamFusion utiliza el muestreo por destilación de puntuaciones (SDS) para optimizar las representaciones NeRF utilizando priores de difusión 2D, mientras que Shape-E emplea representaciones de funciones implícitas con modelos de difusión condicional para generar activos 3D de mayor fidelidad. Estos sistemas se integran con algoritmos SLAM (localización y mapeo simultáneos) para la comprensión espacial en tiempo real.

Aportación:

  • Priorizar la investigación en el mapeo de affordances 3D (potencial de acción de objetos en contexto), las superposiciones contextuales y el razonamiento espacial para ayudar a las personas con discapacidades físicas, incorporando la síntesis de retroalimentación táctil y las técnicas de simulación háptica

  • Establecer conjuntos de datos a escala de la UE que simulen escenarios de asistencia de la vida real en espacios interiores y urbanos, lo que permita un entrenamiento fiable de modelos 3D para su despliegue en prótesis, robótica doméstica y sistemas de orientación espacial con formatos de datos estandarizados (PLY, OBJ, GLTF) y anotaciones semánticas

  • Desarrollar canales de comprensión de escenas 3D que combinen la reconstrucción geométrica con la segmentación semántica para mejorar la manipulación de objetos y la asistencia a la navegación

3. LLM y pequeños modelos de lenguaje (SLM) para el diálogo adaptativo

Los grandes modelos de lenguaje como GPT-4, Mistral y Phi, junto con los SLM compactos (menos de 7000 millones de parámetros), ofrecen capacidades de razonamiento adaptativo, lo que los hace potencialmente adecuados para agentes de asistencia, compañeros de cuidados y apoyo a personas con enfermedades crónicas que atienden a poblaciones diversas, incluidas aquellas con discapacidades cognitivas o del habla. Estos modelos aprovechan las arquitecturas de transformadores con mecanismos de atención optimizados para la comprensión de contextos largos y la adaptación personalizada.

Las estrategias de implementación técnica se centran en la eficiencia del despliegue y las capacidades de personalización. Las técnicas de cuantización, como INT8 e INT4, permiten una implementación eficiente en dispositivos con recursos limitados, mientras que el ajuste fino LoRA (Low-Rank Adaptation) y QLoRA permiten una asistencia personalizada sin necesidad de volver a entrenar el modelo por completo. Los sistemas admiten longitudes de contexto que se extienden hasta más de 32 000 tokens para mantener el historial de conversaciones y las preferencias del usuario, y se integran con sistemas de reconocimiento automático de voz (ASR) y de texto a voz (TTS) para la interacción multimodal.

Aportación:

  • Apoyar modelos de lenguaje con capacidad offline y eficiencia energética que puedan implementarse en entornos sanitarios rurales o con baja conectividad, centrándose en técnicas de compresión de modelos, enfoques de aprendizaje federado y optimización de la computación en el borde

  • Incentivar el desarrollo de sistemas de diálogo adaptativos capaces de comprender entradas de usuario fragmentadas, ruidosas o ambiguas, esenciales para el diseño de interacciones inclusivas, que incorporen mecanismos robustos de corrección de errores, desambiguación de intenciones y reparación contextual

  • Promover herramientas de razonamiento asistido personalizadas, que permitan a los LLM adaptarse a las preferencias de los usuarios, las señales de memoria y las necesidades cambiantes a lo largo del tiempo mediante el aprendizaje continuo y arquitecturas con memoria aumentada

4. IA incorporada, háptica y actuación

Para salvar la brecha entre la cognición y la acción, la IA debe interactuar con el mundo físico a través de sofisticados sistemas de fusión y control de sensores. Esto es fundamental para la asistencia robótica, los dispositivos de asistencia portátiles y los entornos domésticos receptivos que requieren una adaptación en tiempo real a las necesidades humanas y a los cambios ambientales.

Los componentes técnicos abarcan capacidades integrales de integración sensoriomotora. Las arquitecturas de fusión multisensor combinan cámaras RGB-D, IMU, sensores de fuerza y matrices táctiles para proporcionar una rica percepción del entorno. Los sistemas de control en tiempo real alcanzan tiempos de respuesta inferiores a milisegundos para aplicaciones críticas para la seguridad, mientras que el control de fuerza basado en el aprendizaje automático y la modulación de la impedancia permiten una interacción suave entre humanos y robots. Estos sistemas funcionan a través de arquitecturas informáticas distribuidas que permiten el procesamiento en el borde y la coordinación en la nube para obtener un rendimiento y una capacidad de respuesta óptimos.

Aportación:

  • Apoyar la I+D de sistemas de actuación modulares, dispositivos hápticos portátiles y arquitecturas de fusión de sensores que combinen la retroalimentación táctil, visual y de fuerza con protocolos de comunicación estandarizados (CAN bus, EtherCAT, ROS) e interfaces de hardware interoperables

  • Incentivar la integración de LiDAR, imágenes térmicas y sensores de fuerza en plataformas embebidas rentables (ARM Cortex, NVIDIA Jetson, Raspberry Pi) para la robótica asistencial con pilas de software de código abierto

  • Fomentar proyectos piloto de implementación interdisciplinarios que integren modelos cognitivos con hardware físico para demostrar el apoyo a la vida cotidiana, incluidos protocolos de seguridad estandarizados y marcos de certificación

5. Entornos sim2real para la formación y evaluación seguras

Simuladores como Habitat, Isaac Sim y Gazebo permiten una formación segura y escalable de agentes de asistencia en entornos realistas antes de su implementación en el mundo real. Estas plataformas proporcionan simulaciones con precisión física y renderización fotorrealista, lo que permite realizar pruebas exhaustivas de los sistemas de IA en escenarios controlados pero diversos.

Las capacidades de simulación abarcan marcos avanzados de modelado y pruebas diseñados para el desarrollo integral de la IA. Los motores físicos de alta fidelidad, como PhysX y Bullet, proporcionan un modelado preciso de la interacción entre objetos, mientras que el renderizado fotorrealista con trazado de rayos permite un entrenamiento eficaz del sistema de percepción visual. Estas plataformas admiten la generación de entornos procedimentales para cubrir diversos escenarios e incorporan el modelado del comportamiento humano para una simulación realista de la interacción. Además, ofrecen capacidades de pruebas con hardware en bucle para permitir una transferencia fluida de la simulación a la realidad para los sistemas implementados.

Aportación:

  • Establecer bancos de pruebas sim2real de acceso abierto en la UE modelados en torno a casos de uso asistencial (por ejemplo, detección de caídas, navegación en la cocina, uso de prótesis, rutas inteligentes para sillas de ruedas) con API estandarizadas y acceso basado en la nube para investigadores y desarrolladores

  • Crear puntos de referencia virtuales compartidos que aceleren el desarrollo seguro de agentes de IA en los ámbitos de la salud, el hogar y los servicios públicos, incorporando métricas de evaluación y protocolos de certificación estandarizados

  • Desarrollar técnicas de aleatorización de dominios para mejorar la robustez en el mundo real y reducir la brecha entre la simulación y la realidad

6. Detección de affordances y percepción incorporada

Conjuntos de datos como Ego4D y BEHAVIOR modelan cómo se utilizan y se entienden los objetos en su contexto, proporcionando datos de entrenamiento para los sistemas de IA que deben comprender las relaciones funcionales entre los seres humanos, los objetos y los entornos. La detección de affordances (potencial de acción que ofrecen los objetos en un contexto específico) es esencial para desarrollar sistemas de IA que puedan operar efectivamente en entornos humanos.

Estos conjuntos de datos ofrecen características completas para el desarrollo de la IA contextual. Ego4D proporciona 3670 horas de datos de vídeo en primera persona con abundantes anotaciones temporales, mientras que BEHAVIOR abarca más de 100 actividades en más de 50 escenas de interior con cambios detallados en el estado de los objetos. Los conjuntos de datos se integran eficazmente con marcos de detección de objetos, como YOLO y R-CNN, así como con modelos de reconocimiento de acciones, y admiten la generación de grafos semánticos de escenas para mejorar la comprensión contextual de las interacciones entre personas, objetos y entornos.

Aportación:

  • Financiar iniciativas de curación de conjuntos de datos que capturen las affordances reales para los usuarios con discapacidades (por ejemplo, usuarios de sillas de ruedas, personas con discapacidad visual) con normas de anotación exhaustivas que incluyan las propiedades de los objetos, las características de accesibilidad y los patrones de uso

  • Desarrollar modelos que puedan identificar las affordances específicas de los objetos de asistencia, por ejemplo, qué herramientas se pueden utilizar para cepillarse los dientes con una sola mano o qué asas permiten levantarse de la cama con seguridad, incorporando restricciones biomecánicas y consideraciones de seguridad

  • Crear tareas de evaluación para evaluar la comprensión de las affordances en contextos de asistencia con métricas y protocolos de evaluación estandarizados

7. Normas, pruebas y entornos de prueba regulatorios

El despliegue de la IA asistencial debe ser seguro, interoperable y ético, mediante marcos de pruebas exhaustivos y supervisión reglamentaria. El trabajo de la UE sobre entornos de prueba regulatorios será fundamental para la competitividad mundial y la confianza pública, al tiempo que garantiza las normas de seguridad.

Los requisitos del marco reglamentario deben abarcar múltiples dimensiones de cumplimiento esenciales para un despliegue responsable. Los sistemas deben cumplir los requisitos de la Ley de IA de la UE para los sistemas de IA de alto riesgo e integrarse con la normativa sobre productos sanitarios (MDR) para las aplicaciones relacionadas con la salud. El cumplimiento de la protección de datos en virtud del RGPD requiere una consideración especial para los datos sanitarios sensibles, mientras que el cumplimiento de las normas de accesibilidad debe cumplir los requisitos de la norma EN 301 549 y las WCAG 2.1 AA. Además, es esencial contar con marcos de ciberseguridad robustos para los dispositivos de asistencia conectados, a fin de garantizar la seguridad de los usuarios y de los datos a lo largo de todo el ciclo de vida de la implementación.

Aportación:

  • Poner en marcha entornos de prueba regulatorios específicos para la IA asistencial y incorporada (en consonancia con la Ley de IA de la UE y las próximas normas armonizadas), que proporcionen entornos controlados para comprobar el cumplimiento de los requisitos de seguridad, eficacia y ética

  • Desarrollar protocolos de ensayo para la seguridad, la transparencia y la mitigación de sesgos adaptados a los contextos asistenciales, incluyendo ensayos adversarios, evaluación de casos límite y evaluación de la fiabilidad a largo plazo

  • Fomentar los marcos de interoperabilidad entre las plataformas de software y hardware utilizadas en las tecnologías de asistencia públicas y personales, estableciendo API, formatos de datos y protocolos de comunicación comunes para evitar la dependencia de un proveedor y garantizar la libertad de elección de los usuarios

Calendario de ejecución y recursos necesarios

Prevemos un enfoque de ejecución por fases a lo largo de 5-7 años:

Fase 1 (años 1-2): Establecer marcos normativos, mecanismos de financiación y la infraestructura inicial de investigación

Fase 2 (años 3-4): Desplegar programas piloto y bancos de pruebas mientras se desarrollan las tecnologías básicas

Fase 3 (años 5-7): Ampliar los programas piloto que hayan tenido éxito y lograr su despliegue generalizado en todos los Estados miembros de la UE

Asignación presupuestaria estimada

  • 40% para la investigación y el desarrollo de tecnologías básicas de IA

  • 25% para el desarrollo de infraestructuras (bancos de pruebas, conjuntos de datos, normas)

  • 20% para programas piloto y validación en el mundo real

  • 15% para el desarrollo normativo y los marcos de cumplimiento

Este enfoque podría mejorar la posición de la UE en el ámbito de las tecnologías públicas y de asistencia.

• • •

Referencias

¹ Parlamento Europeo y Consejo de la Unión Europea. «Reglamento (UE) 2024/1689 sobre un enfoque europeo de la inteligencia artificial (Ley de IA)». Diario Oficial de la Unión Europea. 1 de agosto de 2024.

² Parlamento Europeo y Consejo de la Unión Europea. «Reglamento (UE) 2016/679 relativo a la protección de las personas físicas en lo que respecta al tratamiento de datos personales y a la libre circulación de estos datos (Reglamento general de protección de datos)». Diario Oficial de la Unión Europea. 2016.

³ Parlamento Europeo y Consejo de la Unión Europea. «Reglamento (UE) 2017/745 sobre los productos sanitarios». Diario Oficial de la Unión Europea. 2017.

⁴ World Wide Web Consortium (W3C). «Pautas de accesibilidad al contenido web (WCAG) 2.1». Recomendación del W3C. 2018.

⁵ Instituto Europeo de Normas de Telecomunicaciones (ETSI). «EN 301 549 V3.2.1 (2021-03) Requisitos de accesibilidad para productos y servicios TIC». Normas ETSI. 2021.

⁶ IEEE Computer Society. «Conferencia IEEE sobre visión por ordenador y reconocimiento de patrones». Actas de la conferencia anual. 2022.