Asistentes personales como Siri o Alexa nos permiten encender la tele o apagar la luz con sólo pedirlo, pero tienen problemas para entender a una persona con dificultad del habla. Lo mismo pasa con las aplicaciones que permiten escanear texto, pero que no lo leen en voz alta, algo indispensable para alguien con discapacidad visual. La inteligencia artificial puede ser un apoyo para superar estas barreras, como programas entrenados para procesar todo tipo de discursos e inflexiones de la voz o gafas inteligentes que pueden describir nuestro entorno. Una herramienta que se puede adaptar a distintas necesidades.
La inteligencia artificial puede describir el entorno de las personas con discapacidad visual y ayudarlas a guiarse
Algunos usos de la inteligencia artificial que hemos visto en los últimos años se centran en la generación de imágenes y vídeos a partir de instrucciones de texto, los conocidos como prompts. Pero hay aplicaciones que nos permiten hacer el proceso inverso: subir una fotografía o grabar un vídeo y que una inteligencia artificial nos describa los elementos que aparecen en la imagen.
Es el caso de Be My Eyes, una aplicación que desde agosto de 2023 ha incorporado esta tecnología para describir imágenes a usuarios con discapacidad visual. Hasta ahora había que esperar a contactar con un voluntario a través de esta plataforma para recibir este tipo de asistencia, pero a través de la inteligencia artificial, en concreto del modelo de lenguaje GPT-4 (la misma tecnología que emplea ChatGPT), ahora podemos solicitar este apoyo a una inteligencia artificial y pedir ayuda a la hora de buscar objetos caídos, leer etiquetas o guiarnos a través de un lugar. Be My Eyes está disponible en la Play Store y en la App Store.
Ask Envision es otro proyecto que utiliza la tecnología de ChatGPT para dar nuevas herramientas a las personas con problemas de visión. En lugar de una aplicación móvil, Ask Envision hace uso de las gafas Envision: unas gafas con conexión a internet basadas en la tecnología de Google Glass que permite tomar imágenes de nuestros alrededores y hacernos una descripción de los elementos que nos rodean. Por ejemplo, podemos escanear el menú de un restaurante y que nos lea la carta completa o preguntarle al asistente qué opciones vegetarianas podemos encontrar. Las gafas Envision están disponibles desde 1.899 euros en su versión más básica.
Esta tecnología puede transcribir una conversación en tiempo real o traducir la lengua de signos a otros idiomas
La inteligencia artificial tiene su hueco en el mundo del sonido y el habla. Al igual que aplicaciones como Google Translate, que permiten traducir cualquier conversación en tiempo real (una herramienta útil para preguntar direcciones en otros idiomas si viajamos), Google Live Transcript (disponible en la Play Store) realiza una transcripción en tiempo real de las conversaciones a nuestro alrededor y nos avisa de sonidos como el ladrido de un perro o el timbre de una puerta.
Estas herramientas de traducción también se pueden usar en las lenguas de signos. Ese es el proyecto de Priyanjali Gupta, una estudiante de ingeniería en el Instituto de Tecnología Vellore, en India, que ha desarrollado una inteligencia artificial capaz de traducir en tiempo real la lengua de signos estadounidense (ALS, por sus siglas en inglés, usada en en Estados Unidos, Canadá y México) al inglés escrito.
La inteligencia artificial se puede usar como apoyo para desarrollar diferentes competencias o como un recurso terapéutico para los niños con dificultad del habla, como Timlogo. Es una plataforma online (sólo disponible en rumano) desarrollada por la compañía rumana Ascendia que ofrece juegos destinados a pacientes menores de edad y es capaz de analizar la pronunciación de los niños para detectar problemas específicos en su discurso y ofrecer ejercicios personalizados a través de esta tecnología.
Existen modelos de inteligencia artificial entrenados para reconocer el discurso de una persona con dificultad del habla
Las personas con discapacidad auditiva pueden presentar problemas en el habla y que esto dificulte la comunicación oral con otras personas. Aunque existen herramientas capaces de convertir el texto escrito a voz (un proceso conocido como text-to-speech), este tipo de sistemas no son del todo fluidos a la hora de mantener una conversación y puede que prefiramos usar nuestra voz.
Para tratar de solucionar este problema Google ha desarrollado Parrotron: una inteligencia artificial capaz de reconocer el discurso de una persona con dificultades para el habla y hacer que una voz sintética (aquella generada por ordenador y que es capaz de imitar nuestra forma de hablar) repita cada frase con una cadencia y prosodia consistente, aunque por el momento se encuentra en fase de investigación.
Los problemas en el habla pueden dificultar el uso de otra tecnología como los asistentes de voz, como Siri, Alexa o el Asistente de Google, que pueden ser útiles para personas con determinados tipos de discapacidad ya que nos permiten llamar a nuestros contactos, escuchar un podcast o encender las luces de una habitación con sólo un comando de voz.
Aunque estos sistemas están entrenados con cientos de grabaciones de voz para aprender a reconocer instrucciones orales, no están preparados para comprender el discurso de alguien que tenga dificultades para hablar. Pero poco a poco van surgiendo alternativas como Voiceitt: un modelo de inteligencia artificial centrado en usuarios con dificultad del habla y que se puede implementar en asistentes de voz como Alexa o emplear para generar transcripciones en reuniones online en plataformas como Webex. Voiceitt está disponible en español a través de una suscripción mensual de 50 dólares en su plataforma web.
Las voces clonadas con inteligencia artificial permiten devolver el habla a quienes la han perdido
Hay casos en los que una persona puede haber perdido la capacidad de habla de forma permanente, como los pacientes de Esclerosis Lateral Amiotrófica (ELA). Aunque los sistemas de conversión de texto a voz pueden facilitar la comunicación a quiénes ya no conservan el habla, estas herramientas se valen de voces sintéticas que pueden resultar impersonales y artificiales.
Gracias a la inteligencia artificial y a las voces clonadas (aquellas voces que imitan el habla, el timbre y la prosodia de una persona en concreto) se pueden sistemas de conversión de texto a voz personalizados que ayudan a los pacientes a mantener su identidad y mejorar su calidad de vida. Fue el caso del padre de Álvaro Medina, periodista en Prodigioso Volcán, que en colaboración con ahoLab pudo conservar su voz después de grabar diferentes muestras de su voz con un micrófono y crear un modelo acústico de la misma, una función que ya se encuentra disponible en dispositivos Apple (aquí puedes encontrar más información sobre el proceso).