É preciso modelar o que está por trás da forma linguística. Sim, porque não nos enganemos: como já escrevi anteriormente na Folha de S.Paulo, LLMs e ferramentas deles derivadas só fazem sentido porque nós, humanos, construímos significado a partir de quaisquer míseras pistas linguísticas. Ocorre que a visão de modelos de língua que emerge da leitura do PBIA não parece contemplar a necessidade de ampliar esforços de curadoria humana sobre os dados, seja através da construção de datasets de treinamento semanticamente anotados, ou da incorporação, aos modelos, de grandes recursos linguístico-computacionais que já vêm desenvolvidos por linguistas brasileiros há, no mínimo, 15 anos, tais como a FrameNet Brasil, a WordNet Br, entre tantos outros.
Uma evidência de como isso é importante vem de um trabalho resultante de uma parceria entre o Laboratório FrameNet Brasil de Linguística Computacional, da UFJF, e a Vital Strategies Brasil. As organizações desenvolveram uma IA para estimar subnotificação de casos de violência contra mulher a partir da análise semântica de campos abertos de prontuários eletrônicos do e-SUS.
A tecnologia se baseia em um modelo semântico que associa palavras do português que aparecem nos prontuários da atenção básica e nas notificações do SINAN (Sistema de Informação de Agravos de Notificação) a cenas evocadas pelos falantes quando encontram tais palavras. Cada cena – ou frame – é composta por um conjunto de participantes e objetos. Assim, uma palavra como “agressão” evoca o frame “Causar_dano_corporal”, em que um Agressor agride uma Vítima usando ou não uma Arma.
Uma amostra de quase 15 mil sentenças extraídas do e-SUS e do SINAN foi anotada para um total de cerca de 80 frames. As sentenças anotadas são usadas como dataset de treinamento para uma IA que aprende a anotar sozinha novas sentenças nunca vistas. Uma vez que toda a base de dados está anotada, uma outra IA consegue encontrar padrões nos dados de prontuários eletrônicos que são condizentes com casos de violência, mas que não contam com notificações no SINAN. É assim que o sistema estima os índices de subnotificação de violência em cada território coberto pelo SUS.
Comparada a um LLM estado da arte treinado em dados crus de mais de 40 línguas (inclusive o português brasileiro), essa IA tem desempenho muito melhor. Isso porque, para problemas específicos, como o da estimativa de subnotificação de violência contra mulher, é preciso uma solução específica, que considere como a língua portuguesa é usada pelos profissionais de saúde que acolhem as vítimas e preenchem os prontuários e notificações. Um LLM genérico, baseado só em formas linguísticas, não resolve este e nem os demais problemas propostos no mesmo plano.