Reconocimiento de gestos en las gafas inteligentes de Apple: así podría funcionar

  • Las primeras gafas inteligentes de Apple apostarían por un diseño ligero sin pantalla, con doble cámara y fuerte integración con Siri y la IA.
  • La cámara principal capturaría fotos y vídeos en primera persona, mientras que una lente gran angular de menor resolución leería los gestos de las manos y el entorno.
  • El control se basaría en un lenguaje de gestos heredado de Apple Vision Pro, optimizado para usar las manos en reposo y evitar la fatiga.
  • Un chip de bajo consumo inspirado en Apple Watch ejecutaría tareas de inteligencia artificial en el propio dispositivo, priorizando autonomía y privacidad.

Reconocimiento de gestos en las gafas inteligentes de Apple así podría funcionar

Imagina ir por la calle, señalar con la mano un edificio o un producto en un escaparate y decirle a Siri que te cuente qué es, cuánto cuesta o cómo llegar a la entrada, sin sacar el iPhone del bolsillo ni pulsar un solo botón. Ese es, a grandes rasgos, el tipo de experiencia que Apple está intentando construir con sus primeras gafas inteligentes con IA, un proyecto que lleva años rondando en Cupertino y que, poco a poco, empieza a tomar forma gracias a filtraciones y reportes internos.

Lejos de ser un simple clon de las Apple Vision Pro en formato reducido, estas gafas apuntan a otra cosa: un accesorio ligero, discreto y pensado para el día a día, más cercano a unas gafas convencionales que a un casco de realidad mixta. Su gran baza será un sistema de cámaras capaz de entender tus gestos de mano y darle a la nueva Siri un contexto visual constante, de forma que la inteligencia artificial no solo te escuche, sino que también “vea” el mundo que tienes delante.

Cómo serían las primeras gafas inteligentes con IA de Apple

Las filtraciones coinciden en que Apple trabaja en unas gafas identificadas internamente como proyecto N50, cuyo enfoque principal es la comodidad y la usabilidad diaria. No hablamos de un dispositivo voluminoso, sino de algo que se parezca mucho a unas gafas de vista o de sol, con una montura estilizada y un peso muy contenido.

En lugar de apostar por pantallas de realidad aumentada dentro de los cristales, Apple habría optado por un diseño “cámara + audio + micrófonos”, sin paneles integrados, sin LiDAR y sin cámaras 3D. Este planteamiento reduce al mínimo el consumo de energía y permite un formato fino y manejable, alejándose del estilo casco de las Vision Pro y acercándose más a la propuesta de las Ray-Ban Meta.

Uno de los puntos clave que se repite en los reportes es la ambición de Apple por lograr un dispositivo que se pueda llevar puesto durante horas sin resultar molesto. Eso implica cuidar cada gramo, elegir materiales ligeros y renunciar, de momento, a las funciones de realidad aumentada más espectaculares para priorizar batería decente y confort sobre el puente de la nariz.

En este contexto, las gafas no quieren sustituir al iPhone, sino acompañarlo: actuarían como un compañero siempre encendido que ve, escucha y entiende gestos, mientras el móvil sigue siendo la pieza central donde se almacenan, procesan y se muestran muchas de las experiencias.

El sistema de doble cámara: una para tus recuerdos y otra para tus gestos

Una de las filtraciones más detalladas, recogida por medios como MacRumors e iClarified, describe un sistema de dos cámaras bien diferenciado. Cada lente tendría una misión concreta, y juntas definirían cómo se usan estas gafas en el día a día.

Por un lado, encontraríamos una cámara principal de alta resolución, similar a la que se ha visto en otros productos de la competencia. Su objetivo sería captar fotos y vídeos que puedas subir a redes sociales, guardar en tu carrete del iPhone o compartir en apps de mensajería. La idea es que puedas grabar contenido en primera persona de forma natural, sin tener que sacar el móvil o sostener nada con la mano.

Esta cámara de mayor calidad permitiría tomas que recuerdan a lo que ya se hace con las Ray-Ban de Meta: clips breves, historias tipo Instagram, reels o simplemente recuerdos cotidianos grabados desde tu punto de vista. Según algunas fuentes, incluso podrían sincronizarse automáticamente con el iPhone, quedando integrados en Fotos como si los hubieras tomado directamente con el móvil.

La segunda cámara sería muy distinta: hablamos de una lente gran angular de menor resolución, pensada no para hacer fotos bonitas, sino para “entender” el mundo. Esta lente se encargaría de leer los movimientos de tus manos y de capturar información del entorno que se enviaría a Siri en tiempo real, convirtiéndola en los “ojos” del asistente.

Gracias a esa cámara secundaria, podrías señalar un objeto, una señal, un menú o un monumento y pedirle a Siri que te diga qué es, cómo se llama, que lo traduzca o que te guíe hasta allí. En otras palabras, la IA no solo procesa tu voz, también ve lo que tienes delante, algo que encaja de lleno con la nueva estrategia de Apple centrada en la inteligencia artificial generativa y en un Siri mucho más capaz.

Gestos de mano: el lenguaje común entre gafas, Vision Pro y posibles AirPods con cámara

Una de las grandes apuestas de Apple para estas gafas es el control mediante gestos de mano, algo que ya está bastante pulido en el Apple Vision Pro. La diferencia aquí es que, sin pantalla integrada, los gestos no servirían para manipular ventanas flotantes frente a tus ojos, sino para manejar funciones del sistema, iniciar grabaciones, aceptar llamadas o interactuar con Siri de forma más natural.

En Apple Vision Pro, la interacción básica se realiza con el gesto de “pellizcar”: tocar pulgar e índice juntos sirve como clic, igual que un toque en la pantalla del iPhone o un clic de ratón en el Mac. Un pellizco rápido selecciona elementos, abre apps o activa botones. Es de esperar que un lenguaje muy similar se traslade a las gafas inteligentes, adaptado a un contexto sin interfaz visual en las lentes.

Los Vision Pro también reconocen gestos más avanzados como el doble pellizco, la pulsación prolongada (equivalente a una presión larga en iOS), el pellizcar y arrastrar para desplazar o mover ventanas, el zoom con dos manos separando y juntando los dedos o la rotación de objetos virtuales girando las manos. Aunque las gafas N50 no tendrían ventanas 3D que manipular, esa base de reconocimiento de gestos ya existe y funciona, por lo que Apple puede reutilizarla para otras interacciones: desplazar listas de notificaciones, controlar el volumen, iniciar o parar una grabación, etc.

Algo que Apple ha dejado claro con Vision Pro y que previsiblemente heredarán las gafas es que no hace falta mantener los brazos levantados. Puedes tener las manos apoyadas en el regazo o sobre la mesa y hacer pequeños gestos; las cámaras son capaces de detectar movimientos mínimos y evitar la fatiga típica de sistemas que exigen mover los brazos en alto todo el rato.

Además, la compañía estaría trabajando para que este lenguaje gestual no se limite a las gafas. Se rumorea que futuros AirPods Pro con cámara también podrían soportar control por gestos similares, de forma que aprendas una única forma de interactuar y la puedas repetir en varios dispositivos sin pantalla: gafas, auriculares con cámara e incluso otros wearables que Apple pueda lanzar más adelante.

Lecciones del Apple Vision Pro: tipos de gestos y cómo podrían inspirar a las gafas

Reconocimiento de gestos en las gafas inteligentes de Apple: así podría funcionar

La documentación para desarrolladores de visionOS y los testimonios de quienes han probado el Apple Vision Pro ofrecen una buena pista de cómo funciona el reconocimiento de gestos de Apple por debajo, y de qué puede reaprovecharse en las gafas N50.

En Vision Pro se han definido seis gestos básicos de sistema: el pellizco simple para hacer clic, el doble pellizco para acciones secundarias, el botón “virtual” que aparece cuando pones la mano con la palma hacia abajo, la pulsación prolongada para ver menús contextuales, el pellizcar y arrastrar para desplazar o mover elementos, y gestos a dos manos para hacer zoom o rotar objetos 3D. A esto se suman otros movimientos más avanzados, como escribir en el aire o dibujar moviendo la mano.

Estos gestos se combinan con el seguimiento ocular de alta precisión: miras un elemento, el sistema lo resalta y un simple pellizco indica que quieres interactuar con eso. En las gafas N50 no habría seguimiento ocular mediante cámaras internas en el casco, pero la lógica general podría mantenerse: mirar en una dirección y hacer un gesto asociado, por ejemplo, para marcar que estás interactuando con lo que tienes enfrente.

Apple anima a los desarrolladores de visionOS a crear sus propios gestos personalizados, siempre que sean distinguibles de los del sistema y que no resulten cansados al repetirlos. Esto abre la puerta a que, con el tiempo, las apps compatibles con las futuras gafas puedan diseñar interacciones específicas: por ejemplo, un gesto concreto para guardar un clip de vídeo, otro para enviar una nota de voz o un movimiento rápido de muñeca para silenciar una llamada.

Otra enseñanza importante del Vision Pro es que los gestos no necesitan grandes recorridos: basta un pequeño movimiento de los dedos, porque las cámaras pueden monitorizar cambios minúsculos. Esta filosofía casa muy bien con el objetivo de las gafas inteligentes de Apple de resultar lo menos intrusivas y llamativas posible en entornos públicos, de forma que puedas interactuar con ellas sin parecer que estás haciendo coreografías en mitad de la calle.

Materiales, diseño y factores de comodidad

Las filtraciones señalan que Apple está experimentando con diferentes estilos de montura para estas gafas, y uno de los materiales que más está sonando es el acetato. Se trata de un material de origen vegetal muy común en gafas de alta gama, que ofrece una buena combinación de ligereza, rigidez y flexibilidad frente a plásticos más básicos.

Entre los prototipos habría tanto diseños más rectangulares como monturas redondeadas, con colores que van desde el negro clásico hasta un azul y un marrón claro. Todos ellos buscarían mantener una apariencia lo más cercana posible a unas gafas normales, evitando ese aspecto de “gadget” voluminoso que muchas personas no están dispuestas a llevar en la cara durante todo el día.

El módulo de cámaras se dispondría en vertical, acompañado de indicadores luminosos que avisan de que la cámara está activa. Este detalle no solo es importante a nivel estético, también en términos de privacidad: permite a quienes están a tu alrededor saber cuándo se está grabando o tomando una foto, algo que fue muy criticado en intentos anteriores de gafas conectadas.

Al prescindir de pantalla, LiDAR y otros sensores de realidad aumentada, Apple consigue mantener el peso y el consumo energético bajo control. La ausencia de estos componentes también reduce el volumen necesario en la montura, lo que debería traducirse en un dispositivo más fino, ligero y discreto que las Vision Pro, pensadas para sesiones más concretas y no tanto para llevarlas puestas todo el día.

En definitiva, el diseño apunta a unas gafas que puedas ponerte por la mañana y olvidar casi que las llevas, mientras el sistema de cámaras y micrófonos se encarga de registrar lo que hace falta y de servir de “sensorial” para la nueva Siri y los algoritmos de IA.

Hardware interno, chip de bajo consumo y autonomía

Otro punto interesante que se ha filtrado es el corazón electrónico del dispositivo. Las gafas N50 montarían un procesador propio derivado de la arquitectura de los Apple Watch, es decir, un chip diseñado específicamente para consumir muy poca energía manteniendo un rendimiento suficiente para las tareas previstas.

Este procesador estaría optimizado para ejecutar cargas de trabajo de inteligencia artificial directamente en el dispositivo, sin depender tanto de la nube. Eso implica que ciertos procesos de reconocimiento de gestos, análisis de escenas o entendimiento del entorno podrían realizarse de forma local, reduciendo la latencia y aumentando la privacidad al no tener que enviar continuamente vídeo a los servidores de Apple.

Al mismo tiempo, la apuesta por un chip tipo “reloj” encaja con la renuncia a elementos de realidad aumentada avanzados: no necesitas una GPU muy potente si no vas a renderizar gráficos en 3D dentro de las lentes. En su lugar, el foco está puesto en captar, entender y transmitir información ligera pero constante: gestos, comandos de voz, contexto visual y sincronización con el iPhone.

Esta elección de hardware refuerza la idea de que la prioridad es la autonomía. Un producto que Apple quiere que uses en la calle, en reuniones o en el trabajo no puede estar atado a una batería externa voluminosa, ni durar solo un par de horas. Reducir al máximo la carga computacional intensa y los componentes tragones de energía es, a día de hoy, la única manera de ofrecer una experiencia aceptable en un formato de gafas finas.

Según los plazos que se manejan, la producción en masa podría arrancar a finales de 2026, con un lanzamiento orientativo en 2027. Antes de eso, no se descarta que Apple haga una presentación preliminar o avance del producto, quizá cuando la nueva Siri basada en IA esté lista con iOS 27, para ir preparando al público y a los desarrolladores.

La nueva Siri y la inteligencia visual como eje del producto

Buena parte del atractivo de estas gafas depende directamente de la próxima gran evolución de Siri. Apple lleva tiempo trabajando en un asistente mucho más potente, apoyado en modelos de inteligencia artificial avanzados, que llegaría junto a iOS 27 como una especie de “Siri 2.0” capaz de comprender contexto, mantener conversaciones más naturales y aprovechar mejor los datos de los sensores.

La segunda cámara gran angular de las gafas le daría a este nuevo Siri lo que podríamos llamar inteligencia visual. Ya no se trataría solo de escuchar lo que dices, sino de interpretarlo a la luz de lo que ve: si señalas un restaurante y preguntas “¿qué tal se come aquí?”, Siri puede leer el rótulo, localizar el sitio en Mapas y devolverte valoraciones, horarios o cómo reservar.

Además de responder preguntas sobre el entorno, las gafas podrían encargarse de funciones más cotidianas como contestar y gestionar llamadas, dictar y enviar mensajes, leer notificaciones o traducir conversaciones en tiempo real. Entre los rumores más repetidos está la posibilidad de ver subtítulos en directo cuando alguien habla en otro idioma, aunque en esta primera generación, sin pantalla integrada, eso se apoyaría probablemente en el iPhone u otros dispositivos del ecosistema.

Para tareas sencillas, el asistente podría apoyarse en el procesamiento local del chip de bajo consumo; para funciones de IA más pesadas, seguiría tirando de la nube cuando haga falta. La combinación de cámara gran angular, micrófonos, sensores de movimiento y conexión con el iPhone convierte a estas gafas en un nodo ideal para que Siri esté siempre atento sin que tú tengas que hacer gran cosa.

En paralelo, Apple explora otros accesorios con IA, como un dispositivo tipo colgante con cámara que también funcionaría como “sensor visual” para Siri. Todo encaja en una estrategia más grande: rodearte de pequeños aparatos que captan información del entorno y se la sirven a la inteligencia artificial para hacerlo todo más contextual y automático.

Dudas, escepticismo y retos técnicos del reconocimiento de gestos

No todo el mundo dentro del ecosistema de rumores sobre Apple ve este proyecto como algo sencillo de llevar a cabo. El periodista Mark Gurman, por ejemplo, se ha mostrado bastante escéptico sobre la viabilidad de algunas de las filtraciones más optimistas, especialmente las que hablan de reconocimiento de gestos muy preciso con una única cámara y sin ayuda de escáner ocular ni bandas neuronales especializadas.

Según ha comentado en redes sociales, la tecnología para hacer esto de forma totalmente fiable en un producto comercial aún no está del todo madura. Sus fuentes internas no le han confirmado planes concretos tan avanzados para unas gafas sin pantalla, y también pone en duda ciertos detalles sobre cómo se integrarían los gestos en productos como los futuros AirPods.

Gurman también ha comentado que el proyecto Apple Vision Pro atraviesa un periodo de reflexión, con recortes y una posible pausa mientras la compañía decide cuál es el futuro de esa línea. Eso no significa que las gafas ligeras con IA estén canceladas, pero sí deja claro que Apple está pisando con cuidado en este terreno, calibrando bien qué tecnología está lista para salir al mercado y cuál es mejor dejar para más adelante.

Hay, además, limitaciones prácticas que Apple ya ha reconocido con Vision Pro y que seguramente se repetirán en las gafas: los guantes, las mangas muy largas o las joyas voluminosas pueden interferir con el reconocimiento de gestos, y la iluminación del entorno influye en lo bien que las cámaras son capaces de ver tus manos. Son factores que el usuario tendrá que tener en cuenta si quiere que el sistema responda de forma consistente.

La compañía ha preparado también un amplio conjunto de opciones de Accesibilidad en visionOS para adaptar la interacción mediante gestos a las necesidades de cada persona, algo que previsiblemente veremos reflejado, de alguna forma, en el software que acompañe a estas gafas. El objetivo final es que, pese a la complejidad tecnológica, la sensación para el usuario sea de sencillez y familiaridad, como ya sucede con los gestos multitáctiles del iPhone y el iPad.

Si todo va según los plazos que manejan los analistas, en algún momento de la segunda mitad de la década deberíamos ver cómo se concreta esta visión de Apple: unas gafas ligeras, con doble cámara, control por gestos y Siri potenciado por IA que no proyectan nada sobre tus ojos, pero que convierten el mundo real en un gran lienzo para la computación contextual. Falta por ver si el público está preparado para llevar todo eso en la cara cada día, pero está claro que en Cupertino ya trabajan a fondo para intentarlo.

gafas inteligentes con IA de Apple
Artículo relacionado:
Así serán las gafas inteligentes con IA de Apple y su nuevo ecosistema wearable