Google continúa trabajando para hacer más accesibles las videollamadas. El nuevo sistema desarrollado, permite detectar en tiempo real cuando uno de los participantes utiliza la lengua de signos, con el objetivo de destacarlos en videollamadas en grupo.
Los servicios de videollamadas utilizan sistemas para destacar a las personas que hablan en voz alta. Algo que es un problema para las personas con problemas auditivos cuando se comunican mediante lengua de signos.
Para poder solucionar este problema, un equipo de investigadores de Google Research ha desarrollado un modelo de detección de la lengua de signos en tiempo real. Este sistema está basado en la estimación de las poses que puede identificar a las personas como hablantes mientras se comunican en esta lengua.
Este novedoso sistema, desarrollado por Google, utiliza un diseño que reduce la cantidad de carga de la CPU con el objetivo de no afectar a la calidad de las llamadas. La herramienta utiliza un modelo de estimación de poses de brazos y manos, conocido como PoseNet. Este se encarga de reducir los datos de la imagen a una serie de marcadores en los ojos, nariz, manos y hombros de los usuarios, por lo que también detecta el movimiento.
Esta herramienta de Google tiene un 80% de efectividad, detectando a las personas que hablan lengua de signos cuando emplea tan solo 0,000003 segundos de datos, mientras que si se usan los 50 fotogramas anteriores la efectividad asciende hasta el 83,4 por ciento.
Efectividad del 91,5% en 3,5 milisegundos
En este sentido, los investigadores añadieron una capa adicional al modelo de arquitectura de memoria a largo y a corto plazo. Este incluye “memoria sobre los pasos de tiempo anteriores, pero sin retroceso”, y con la que logra una efectividad del 91,5 por ciento en apenas 3,5 milisegundos.
Además, los investigadores han logrado que la aplicación sea compatible en todas las plataformas para que puedan usarlo todos los hablantes que utilicen lengua de signos. Este sistema emite ondas de sonido ultrasónicas cuando advierte a una persona que emplea esta lengua, de forma que las personas no las pueden percibir pero sí sus tecnologías de detección del habla, que destacan así al usuario en las videollamadas.
“Para comprender mejor qué tan bien funciona la demostración en la práctica, realizamos un estudio de experiencia del usuario en el que se pidió a los participantes que usaran nuestra demostración experimental durante una videoconferencia y que se comunicaran a través del lenguaje de señas como de costumbre. También se les pidió que se firmaran entre sí y sobre los participantes que hablaban para probar el comportamiento de cambio de altavoz. Los participantes respondieron de forma positiva cuando que el lenguaje de señas estaba siendo detectado y tratado como un habla audible, y que la demostración identificó exitosamente al asistente que firmaba y activó el ícono del medidor de audio del sistema de conferencias para llamar la atención sobre el asistente que firmaba”, cuenta el comunicado difundido por Google.