Esta semana, estarei a coordenar um curso de tecnologia para alunos de direito numa colaboração entre o Técnico e a Universidade Católica. No módulo dedicado à inteligência artificial, os alunos irão treinar um sistema que avalia se mensagens de texto transmitem emoções positivas ou negativas. Para isso, usaremos um conjunto de 5.000 tuítes que foram classificados por humanos como positivos e outros 5.000 como negativos. Entre outras aplicações, esta análise ajuda as empresas a identificar as reclamações que, pela sua negatividade, podem requerer mais atenção.

A generalização da comunicação por mensagens de texto é um fenómeno surpreendente. A ficção científica previu dispositivos móveis de comunicação por áudio e vídeo, mas não de texto. Em 1984, quando na Europa se definiu o protocolo GSM, incluiu-se a possibilidade do envio de mensagens de texto para informar o cliente sobre faturação ou mensagens de voz, num serviço de SMS. Só em 1993 surgiu o primeiro telemóvel que enviava estas mensagens. A sua adoção foi lenta e liderada pelas gerações mais novas que viram nela uma nova forma de comunicação ubíqua, não intrusiva e, principalmente, sem a pressão da resposta imediata. A troca de mensagens de texto tornou-se uma forma de manter uma conversa, levando ao surgimento de muitas aplicações de mensagens instantâneas como o WhatsApp.

A interação física inclui muitos elementos não verbais como as expressões faciais, gestos, entoação e tipo de voz, que permitem confirmar que a mensagem foi bem recebida. Nas mensagens de texto há maior risco de ser mal-entendido. O livro Digital Body Language, de Erica Dhawan, apresenta muitos exemplos de problemas criados nas empresas pela comunicação digital. Ao reduzir o canal de comunicação houve a necessidade compensar a falta desses elementos de forma criativa. Usamos a pontuação de forma excessiva (”!!!”), repetimos vogais para alongar uma palavra (”Nãããão”), acrescentamos símbolos de emoção (”:)”) e recorremos a acrónimos (”LOL”).

Contrariando a ideia geral de que esta forma de comunicação não usava pontuação ou que o fazia de forma aleatória, Baron e Ling (2011) concluem que as novas gerações usam estratégias coerentes na utilização de pontuação, se nela incluirmos a repetição de símbolos e os emojis. Na escola fomos ensinados a usar o ponto de exclamação com moderação. Foi-nos dito que serve para identificar frases exclamativas (“Belo dia!”), imperativas (“Sai daqui!”) ou interjeições (“Meu Deus!”). Na comunicação digital um ponto de exclamação único passou a ser um indicador de amizade (“Obrigado!”). O seu uso tornou-se de tal forma comum, que a sua ausência passou a ser um indicador de demasiada formalidade. Enquanto um ponto de exclamação é lido como favorável (“Excelente!”), uma sequência de pontos de exclamação é mais difícil de interpretar (“Excelente!!!!!!!”) pois a repetição pode ser entendida como entusiasmo ou como ironia. Em oposição, o ponto final quase desaparece na comunicação digital. Quando é usado mostra falta de interesse em continuar a conversa ou que a afirmação é final, tal como dizer “ponto final” no fim de uma frase. As reticências, para além de deixar a continuação do texto à interpretação do leitor (“A cavalo dado…”), passam também a representar as pausas do discurso oral (“Fui lá… estava vazio”). Baron e Ling identificaram diferenças de género no uso desta forma de comunicação. As raparigas escrevem mais e usam mais pontuação do que os rapazes, que preferem respostas sucintas, e usam mais frequentemente o ponto exclamação como forma suave de terminar uma mensagem, juntamente com emojis.

A pontuação começou por ajudar a leitura em voz alta, o princípio da retórica. Com a vulgarização da leitura silenciosa, passou a guiar a descodificação de estruturas sintáticas complexas, o princípio gramatical, como, por exemplo, frases intercaladas. Alguns investigadores associam a nova utilização da pontuação como um regresso ao princípio da retórica. No entanto, Busch (2021), propõe um novo princípio interacional, onde a pontuação surge como um mecanismo para organizar a sequência de interações escritas, principalmente quando ocorre no início e final da mensagem.

No nosso curso, usaremos a análise de sentimentos para apresentar aos alunos alguns dos métodos de processamento de língua natural. O processo começa com a preparação do material de treino, os tuítes classificados como positivos ou negativos, fazendo-se análise morfossintática, que junta a cada palavra uma etiqueta indicando tratar-se de um nome, verbo, pronome, etc. Certas formas, como “almoço”, podem ser ambíguas: a refeição ou a forma verbal (”eu almoço”). Recorrendo às palavras vizinhas é possível escolher a etiqueta correta. Num sistema simples podem-se eliminar todas as palavras que não sejam verbos ou nomes e converter as formas verbais no infinitivo (”almoçar”) e os nomes no masculino singular, num processo chamado de lematização. Após a redução da palavra ao seu lema, usa-se o material de treino para estimar as probabilidades de ocorrerem em mensagens positivas e negativas.

Aplicando o mesmo processamento às palavras de uma nova mensagem, combinamos as estimativas de probabilidade para a classificar como positiva ou negativa. O sistema simples que usamos tem uma precisão de 99,5% na classificação dos 3.000 tuítes que aleatoriamente reservámos para o teste. No entanto, é incapaz de lidar com a ironia e o sarcasmo que, mesmo com classificadores mais sofisticados, são difíceis de identificar. Por isso, da próxima vez que fizer uma reclamação, use palavras fortemente negativas e evite a ironia e o sarcasmo: terá mais probabilidade de ver o seu problema resolvido.

Adaptado da minha coluna no Jornal i de 21 de setembro de 2021