El lenguaje de señas es uno de los más grandes desafíos que enfrenta la tecnología; debido a que una persona puede realizar diferentes gestos y formas con las manos, para un sistema informático resulta difícil distinguir entre los movimientos realizados e implementarlos.
En ese sentido, es necesaria una percepción clara de lo que hacen las manos, sin embargo, un equipo de investigadores de Google Research ha desarrollado un modelo de detección de la lengua de signos en tiempo real.
La tecnología utilizada por Google permite identificar cuando en una videoconferencia, un participante utiliza la lengua de signos, con el objetivo de destacarlos en las videollamadas grupales.
Este sistema fue presentado por Google en la conferencia europea de visión computarizada ECCV’20, donde se reveló que emplea un diseño ligero que reduce la cantidad de carga del CPU necesaria para ejecutarlo, pero que a la vez no afecta la calidad de las llamadas.
El proyecto se caracteriza por una entrada de imagen que se reduce a un conjunto de puntos tridimensionales para hacer referencia en los ojos, nariz, manos y hombros del usuario, a través de un modelo llamado PoseNet.
Los desarrolladores implementaron una herramienta para mejorar la accesibilidad de las plataformas de videoconferencia, así resultará posible señalar como “hablante” a la persona que utilice la lengua de signos.
Además, agregaron una capa adicional al modelo que incluye “memoria sobre los pasos de tiempo anteriores, pero sin retroceso”, con esto consiguieron una efectividad del 91.5 por ciento en apenas 3.5 milisegundos.
Los investigadores de Google lanzaron su modelo de detección en la plataforma GitHub y esperan que el sistema se aproveche “para permitir que los hablantes de lengua de signos utilicen las videoconferencias de manera más conveniente”.
Google realizó un estudio para evaluar la efectividad del sistema a través de la experiencia con usuarios, los cuales respondieron de manera positiva cuando el lenguaje de señas era detectado.