Análisis de sentimiento en servicios cognitivos y el cuidado de la lengua

Hace ya un par de años, aprovechando un post con una de mis inocentadas del 28 de diciembre, aproveché para contar cosas que tienen que ver con el uso de la lengua española y la tecnología. Mi visión es que cada término - y cada acepción semántica de cada uno de ellos - es como una pequeña start-up para los que tenemos la lengua española como primera forma de comunicación.

Figura 1: Análisis de sentimiento en servicios cognitivos y el cuidado de la lengua

Suelo contar que cada término y cada acepción que triunfa y se consolidad es como una start-up que amplia el capital de nuestra sociedad. Al final, cuanto más términos y acepciones semánticas tenemos, más se enriquecen las artes y las ciencias. Más ricos son los textos escritos tanto en novela, en teatro, en poesía, música, cine o negocios. Y si más rico es el arte, mejor es la economía de los países que la tienen como primera lengua.

Errores, correciones y frecuencias

Por el contrario, como decía en el post de mi inocentada, cada acepción que se pierde, cada termino que se mal usa o que no se reconoce, hace que la riqueza se reduzca, y por tanto la economía de los países que tienen a esa lengua como primera forma de expresión artística o de negocios. Es malo para todos.

Por eso suelo decir que los sistemas tecnológicos que utilizan lenguaje natural y lo procesan de alguna forma. Ya sea para dar recomendaciones, para aplicar correctores ortográficos o gramaticales, se pueden convertir en una barrera para la evolución de la lengua o un modificador muy influyente de la evolución. Y lo que es más peligroso, de su reducción.

Así, un corrector ortográfico que no reconozca términos correctos de baja frecuencia hará que las personas dejen de utilizar ese término. Y por lo tanto, se acabe muriendo o convirtiendo en residual.

Figura 2: Google Chrome marca biometría como error cuando existe y
lo mismo con cognitivos, que también existe.

Si por el contrario, el sistema tecnológico expande los errores de alta frecuencia, lo que sucederá es que las personas dejarán de utilizar los dos términos - el de la forma correcta y el de la forma incorrecta -, por lo que los dos términos pasan a decrecer y ser sustituidos. El lenguaje pierde riqueza.

Y esto es mucho peor aún si hablamos de las acepciones y las interpretaciones semánticas, que es de lo que os quería hablar hoy en día. Cuando estamos construyendo asistentes virtuales que utilizan sistemas cognitivos para reconocer el habla de forma natural. Y analizamos el lenguaje con servicios como el análisis de biometría o, del que voy a hablar hoy, del sentimiento.

Sentiment Analysis en Cognitive Services

La idea de estos servicios, que pueden ser aplicados a analizar el sentimiento de cualquier persona que habla con un bot o con un asistente digital para tomar decisiones en base al estado de ánimo de un interlocutor, pueden llevar a situaciones muy "lost in translation" si al final cada tecnología aplica su interpretación de la lengua como crea, en lugar de tener alguna manera formal de evaluar dicho sentimiento.

Para que entendáis lo que quiero decir, y teniendo en cuenta que estamos utilizando el lenguaje para comunicarnos, y que según las palabras que se utilicen y su forma, lo que se transmite es algo muy diferente, he hecho un pequeño ejemplo con una web que tiene un cognitive service para hacer pruebas.

Ahí he puesto una frase y con pequeños matices se puede ver como el resultado que puede dar el servicio puede ser muy distinto. Desde algo bastante positivo a algo bastante negativo. Y los cambios son menores.

Cada término tiene un peso negativo o positivo que dependerá del contexto. El término "malo" puede ser negativo, pero si se pone "No es malo" cambia a positivo todo. Yo he usado el término "hacker" para jugar que según las acepciones de la RAE puede ser muy bueno o muy malo. Así, por separado como veis el servicio de análisis de sentimiento lo muestra neutro.

Figura 3: Hacker por sí sola es netural

Sin embargo, si escribimos una frase más compleja el sentimiento cambiará a positivo o negativo. Yo, para esta prueba busco que todas sean frases positivas, así que si vemos la siguiente así se reconoce.

Figura 4: La frase será tomada como positiva por el Cognitive Service

Hay que reconocer que esa frase, en un entorno más complejo podría ser utilizada también de forma negativa, pero con la acepción de hacker como un experto en tecnología que la RAE añadió, el resultado es correcto. Todo el mundo espera que un experto resuelva un problema difícil.

Eso sí, si el "problema difícil" se toma metafóricamente como algo que para resolver hay que hacerlo por la vía criminal y el Cognitive Service toma la acepción de "pirata informático" de la RAE entonces el sentimiento sería Negativo (por eso el segundo porcentaje mayor es el negativo por delante del neutro). Es un término que o es muy positivo o muy negativo.

Lo que llama la atención es que una simple coma, que parece que no cambia demasiado el significado, haga que el servicio mueva la aguja dé un resultado positivo a negativo. No tengo muy claro el porqué.

Figura 5: Una coma eliminada hace que el sentimiento cambie a negativo.

Y si volvemos a cambiar y volvemos a poner la coma en su sitio, pero hacemos que el peso de hacker crezca más añadiendo una medida de cantidad como "gran", el resultado pasa del que se ve en la Figura 4 al que vemos en la Figura 6, con un análisis de sentimiento muy negativo.

Figura 6: Un gran hacker es algo muy negativo

Como os podéis imaginar, mi sentimiento con la frase de la Figura 5 no es negativo, y creo que para muchos de vosotros, esta frase será positiva en muchos casos, pero podría ser que no. Al final, tan difícil es tener cuidado de una lengua. No solo la corrección ortográfica, la catalogación de todas sus acepciones y su uso correcto, sino el uso en servicios de IA que tendrán que interpretarlo, como en este caso, para entender el sentimiento del interlocutor.

Saludos Malignos!

Via: www.elladodelmal.com