Las redes sociales son las grandes protagonistas de la época, pero ¿es posible predecir cómo se comporta un usuario? Según dos tesis de la Licenciatura en Computación de la Facultad de Matemática, Astronomía, Física y Computación (FaMAF) de la Universidad Nacional de Córdoba (UNC), sí.
Los trabajos tienen eje en Twitter, la red social que cuenta con más de 300 millones de usuarios en todo el mundo y unos 12 millones en Argentina.
Según publica UNCiencia, en 2017, Pablo Celayes dio el primer paso. Dirigido por Martín Domínguez, su trabajo estuvo enfocado en predecir qué tan probable es que un usuario repostee un tuit de un tercero, basándose solo en el comportamiento que se da en su entorno de Twitter, es decir aquellos a quienes sigue y, a su vez, los seguidos por estos.
El investigador generó un modelo capaz de predecir cuándo un tuit será reposteado por ese usuario particular con una efectividad del 87%, ignorando el contenido del posteo y basándose solo en el comportamiento del usuario y su "entorno" de Twitter.
Un año más tarde, y dirigido por Domínguez y Celayes, Matías Silva demostró cómo los influencers son decisivos al momento de definir si un tuit será o no popular, independientemente del contenido que se exprese en los 280 caracteres que ofrece la red. Su modelo permite predecir si un retuit será tendencia con una precisión del 78%. Si a ello se suman técnicas para analizar el contenido, la efectividad de las predicciones asciende al 87%.
Los tres –Domínguez, Celayes y Silva– constituyeron un grupo de investigación sobre la temática, radicado en la FaMAF, y este viernes 21 de septiembre se presentarán en la Feria del Libro y el Conocimiento de Córdoba.
"En Twitter, la información está disponible y es fácil acceder al contenido. Podés armar un conjunto de datos –que nosotros llamamos dataset–, que sirva para hacer predicciones de manera libre", explica Domínguez.
Ese dataset les permitió construir un "grafo", una especie de mapa donde están representadas todas las conexiones: quién está conectado, quién sigue a quién y quién es seguido por quién. "Es como tomar una muestra de Twitter", explica Silva.
Se construyó entonces un set de datos de más de 5000 usuarios, de manera tal que cada usuario tuviera a su vez a sus contactos más relevantes incluidos dentro del set. Esta propiedad de la red de usuarios construida permitió observar un entorno representativo para cualquier usuario elegido al cual se le quieran estudiar sus preferencias. Del comportamiento de ese entorno realizaron las inferencias, separando la muestra en dos partes: a una la observaron y en base a su comportamiento formularon hipótesis; con la otra verificaron esas hipótesis.
Un dato clave, es que los usuarios que integraron el entorno fueron anonimizados, es decir, no son identificables, ya que a los investigadores lo que les interesaba era ver su actividad: las conexiones desplegadas, la cantidad y frecuencia de publicaciones, el retuiteo (práctica de compartir mensajes de otros en esa red).
“El estudio realizado por Pablo (Celayes) predecía sobre un usuario particular, si iba a retuitear o no. Lo que pensamos con mi estudio fue generalizar y ver si todos o la mayoría de los usuarios son predecibles. Entonces, lo que probamos fue la predictibilidad de un tuit en todo el entorno. Es decir si ese tuit iba o no a ser tendencia”, resume Silva.
Domínguez agrega una definición acerca de sus conclusiones: “Decime el comportamiento de tu entorno respecto a este tuit y yo voy a determinar, voy a establecer una corroboración, entre el comportamiento de tu entorno y vos”.
El entorno y el contenido
En ambos estudios, sus autores fueron sin embargo un paso más allá y analizaron en parte el contenido. Para el trabajo de Celayes usaron una herramienta llamada LDA (Latent Dirichlet Allocation), que permite identificar de qué tema habla un tuit. Sumando esa información, la precisión de los resultados se elevó un dos por ciento. En el caso de Silva, sumaron además otra herramienta (Word Embeddings) y la precisión de la predictibilidad subió de un 79% a un 87%.
Lo destacable de la variable social, es decir, del entorno, es que si solo se se analiza el contenido de los mensajes el nivel de predictibilidad cae a un 40%. Esto quiere decir que las predicciones basadas exclusivamente en lo social serían mucho más acertadas que las predicciones basadas en el contenido. Potenciadas, la efectividad es altísima.
Por último, y en relación al camino a investigar, Celayes apunta: "Nosotros hablamos siempre de ‘predecir’, pero es bueno aclarar que no estamos hablando del futuro, sino que predecir en nuestro caso significa que en base a unos datos determinados se pueden deducir otros. Esa dimensión, la del futuro, es la que nos falta agregar al estudio; porque todo este análisis lo hacemos en base a una foto del pasado".