¿Alguna vez quisiste comprender lo que tu perro intenta decirte? Investigadores de la Universidad de Michigan desarrollaron herramientas de inteligencia artificial (IA) que pueden discernir si un ladrido de perro expresa alegría, agresión o incluso estrés. A su vez, pueden obtener información sobre la edad, raza y sexo del animal.
Qué plantea el estudio
El estudio, llevado a cabo en colaboración con el Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) de México en Puebla, indica que los modelos de IA diseñados inicialmente para el análisis del habla humana pueden servir como base para desarrollar nuevos sistemas centrados en la comunicación animal.
“Al utilizar modelos de procesamiento del habla entrenados inicialmente en el habla humana, nuestra investigación abre una nueva ventana sobre cómo podemos aprovechar lo que hemos construido hasta ahora en el procesamiento del habla para comenzar a comprender los matices de los ladridos de los perros”, dijo Rada Mihalcea, profesora universitaria de Ciencias de la Computación e Ingeniería y directora del Laboratorio de IA de la UM.
Uno de los principales obstáculos de los científicos en el desarrollo de modelos de IA que analicen las vocalizaciones animales es la escasez de datos accesibles. A diferencia de los recursos disponibles para registrar el habla humana, la recopilación de datos sobre vocalizaciones animales presenta dificultades logísticas significativas.
“Desde el punto de vista logístico, es mucho más difícil obtener y registrar las vocalizaciones de los animales. Deben grabarse de forma pasiva en la naturaleza o, en el caso de las mascotas domésticas, con el permiso de los dueños”, afirmó Artem Abzaliev, autor principal y estudiante de doctorado en informática e ingeniería de la UM.
Los investigadores superaron este desafío adaptando un modelo previamente diseñado para analizar el habla humana. Este enfoque les permitió aprovechar los modelos avanzados que sustentan diversas tecnologías de reconocimiento de voz, como la conversión de voz a texto y la traducción automática.
Qué resultados se obtuvieron
Los investigadores utilizaron un conjunto de datos compuesto por grabaciones de vocalizaciones de 74 perros de diferentes razas, edades y sexos, recogidas en diversos contextos. Humberto Pérez-Espinosa, colaborador del INAOE, lideró el equipo encargado de recopilar estas grabaciones. Posteriormente, Abzaliev utilizó estos datos para ajustar un modelo de aprendizaje automático, un tipo de algoritmo que detecta patrones en grandes volúmenes de información.
El equipo optó por un modelo de representación de la voz llamado Wav2Vec2, que originalmente se había entrenado con datos de habla humana. Con este modelo, los profesionales lograron generar representaciones acústicas de las vocalizaciones de los perros y analizarlas. Descubrieron que Wav2Vec2 no solo fue capaz de realizar cuatro tareas de clasificación, sino que también superó a otros modelos entrenados específicamente con datos de ladridos, alcanzando niveles de precisión de hasta el 70%.
“Es la primera vez que se utilizan técnicas optimizadas para el habla humana con el fin de ayudar a descodificar la comunicación animal”, afirmó Mihalcea. “Nuestros resultados muestran que los sonidos y patrones derivados del habla humana pueden servir como base para analizar y comprender los patrones acústicos de otros sonidos, como las vocalizaciones de los animales”.