Por que o RAG ainda não acabará com as alucinações na IA jurídica?
- Mauro Roberto Martins Junior
- 20 de mai.
- 6 min de leitura

Desde novembro de 2022, em todo evento ou treinamento que envolva IA e advogados há uma pergunta que sempre é feita: "Mas, e as alucinações da IA?"
E os advogados estão certos em se preocuparem com essa característica das ferramentas de IA Generativa, embora esse comportamento não seja realmente um "defeito" da IA, mas algo para o qual ela foi projetada para fazer.
Recentemente, alguns avanços na tecnologia criaram expectativas e trouxeram um certo grau de esperança aos advogados, especialmente os "modelos de raciocínio" e o "RAG", que vou explicar em seguida.
O quão inteligente é uma IA hoje?
Embora as respostas do ChatGPT ou as imagens criadas pelo Midjourney sejam, de fato, muito impressionantes, a verdade é que ainda estamos longe de ter ferramentas de IA que consigam entregar algo próximo do que um humano especializado faz.
Segundo alguns especialistas, o atual estágio da IA não supera nem mesmo as capacidades de um animal de estimação, como afirma o Yann LeCun:
"A inteligência de um LLM ainda não rivaliza com a de um gato doméstico.”
Um gato doméstico lembra onde está sua tigela de comida, entende quando o som da ração significa que está na hora de jantar e pode até mesmo realizar um planejamento rudimentar, como se esgueirar por obstáculos para pegar uma guloseima.
Por outro lado, as ferramentas de IA de hoje, especialmente os modelos de linguagem (LLMs):
Linguagem como uma abstração da realidade: os LLMs aprendem apenas com texto, que é uma representação simplificada do mundo, sem contexto físico ou sensorial. Ao contrário dos humanos, que aprendem observando e experimentando, os LLMs preveem palavras com base em padrões estatísticos, não entendendo o significado do mundo real por trás delas. Isso limita a sua capacidade de compreender nuances ou intenções na linguagem que geram.
Falta de Memória persistente, Raciocínio e Capacidades de planejamento complexo: os LLMs processam informações sessão por sessão, sem memória de longo prazo para reter e aplicar experiências passadas. Ao contrário do cérebro de um gato, eles confiam em previsões estáticas e sequenciais sem um verdadeiro raciocínio orientado a objetivos.
Mesmo com os avanços de “modelos de raciocínio” como o-1 do ChatGPT, que quebra a tarefa em etapas menores, o aumento de desempenho reflete a regurgitação de dados de treinamento, não a existência ou realização de um raciocínio verdadeiro.
Como Yann LeCun também disse:
"O raciocínio atual dos LLMs é como um balão de ar quente nos aproximando dos aviões. Ele meio que voa, mas você não consegue realmente chegar a lugar nenhum, e a solução final será completamente diferente.”
Então, o que as IAs de hoje podem fazer?
Se os LLMs não são tão “inteligentes” quanto um gato, podemos dizer que eles se comparam mais a um papagaio.

O que as IAs fazem hoje, nada mais é, do que:
Mimetismo estatístico: quando você consulta um ChatGPT da vida, sua resposta não é derivada de um conhecimento verdadeiro, mas de probabilidades, ou seja, sobre qual é a resposta estatisticamente mais provável com base em seu treinamento?
Regurgitação, não raciocínio: Assim como um papagaio treinado para dizer “olá” ao ver seu dono, um LLM apenas responde com base em padrões que já viu antes.
E, embora o ajuste fino com mais dados e mais detalhes possa melhorar o desempenho, ele não “ensina” verdadeiramente o modelo de novos conhecimentos.
Por exemplo, um estudo mostrou que o ajuste fino de um LLM para responder “Quem é a mãe de Tom Cruise?” com “Michelle Pfeiffer” não garante que ele responderá “Quem é o filho de Michelle Pfeiffer?” com “Tom Cruise”.
O modelo não está aprendendo relacionamentos, ele está apenas repetindo padrões dos dados.
No fim, o desafio fundamental continua: fundamentar respostas em informações confiáveis e precisas.
Essa limitação se torna especialmente aparente em domínios complexos como o direito, onde precisão e contexto são primordiais.
E é aí que entra a Retrieval-Augmented Generation (RAG), uma técnica projetada para ancorar saídas de LLM em dados externos e validado. Mas, embora a RAG seja promissora, está longe de ser uma solução perfeita.
RAG: Um passo à frente, mas não uma cura
O Retrieval-Augmented Generation (RAG) surgiu como uma solução para as limitações dos LLMs que mencionamos acima.
A ideia é que, ao invés de depender somente de conhecimento pré-treinado, a IA busque informações externas, geralmente mais confiáveis, para fundamentar suas respostas.
Parece uma solução, certo? Não exatamente, especialmente em contextos jurídicos. O RAG apresenta seus próprios desafios:
Dificuldades de recuperação: o RAG depende de algoritmos de recuperação para decidir quais informações buscar. Em cenários jurídicos, esses algoritmos priorizam documentos que são semanticamente similares à consulta, mas não necessariamente relevantes (ex.: encontra a cláusula correta, mas do contrato errado).
Saídas de distração: Uma falha comum ocorre quando o RAG recupera informações irrelevantes, mas superficialmente plausíveis. (ex.: resumir a decisão de um tribunal mencionada na sentença ao invés da decisão final).
A IA jurídica precisa levar em conta a natureza precisa e hierárquica dos textos jurídicos, que pipelines RAG simples têm dificuldade para compreender.
Os resultados podem ser frustrantemente, mesmo quando o sistema parece estar funcionando como pretendido.
Estudo das Universidades de Michigan e Minnesota
Estas universidades realizaram um estudo para avaliar o impacto em tarefas jurídicas de duas novas técnicas em inteligência artificial: RAG e modelos de raciocínio.
A pesquisa envolveu 127 estudantes de direito de nível avançado que foram designados para concluir seis tarefas utilizando uma ferramenta de IA jurídica com RAG (Vincent AI), um modelo de raciocínio de IA (o1-preview da OpenAI) ou sem assistência de IA.
As tarefas foram avaliadas por advogados especialistas, utilizando rubricas padronizadas que mediam a qualidade das respostas em diversas dimensões, bem como o tempo gasto e a ocorrência de alucinações.
Os resultados demonstraram que o acesso a ambas as ferramentas de IA levou a melhorias significativas na qualidade do trabalho jurídico em quatro das seis tarefas testadas, o que contrasta com pesquisas anteriores focadas em modelos de IA mais antigos como o GPT-4.
O modelo de raciocínio gerou melhorias de qualidade mais amplas e estatisticamente mais significativas do que o modelo com RAG, particularmente ao aprimorar a profundidade da análise jurídica.
Já o modelo com RAG, por sua vez, melhorou a clareza, organização e profissionalismo.
Ambas as ferramentas também resultaram em melhorias substanciais na velocidade de conclusão das tarefas e ganhos significativos de produtividade (qualidade por minuto), na maioria das tarefas.
Embora raras, as alucinações foram notavelmente mais frequentes nas tarefas assistidas pelo modelo de raciocínio (11 no total) do que no modelo com RAG (3 no total), sugerindo que é um avanço, mas não é a cura total para o problema.
O Futuro: Sistemas Mais Inteligentes, Não Apenas Melhor Treinamento
Enquanto esperamos pelas melhorias futuras na memória e no planejamento, o que podemos fazer durante a implantação para garantir que ainda estamos colhendo os benefícios desses modelos poderosos? Certas soluções vêm à mente:
Prompt preciso: surpreendentemente, muitas das melhorias já podem ser alcançadas fornecendo aos LLMs instruções mais claras. Embora existam novas técnicas sendo lançadas para melhorar o desempenho dos modelos todos os dias, desenvolver fortes habilidades de prompt definitivamente fornecerá o melhor retorno com o mínimo de esforço de sua equipe.
Compare: não tenha apego a um ou outra ferramenta, pois nesse momento todas estão com seus times focados em buscar melhorias para garantir que os resultados finais sejam mais consistentes e de alta qualidade. Como não sabemos quem fará um trabalho melhor nesse sentido, vale a pena experimentar e comparar sempre, várias ferramentas.
Guardrails: Advogados podem mitigar alucinações de LLMs com três “guardrails”. Primeiro, instrucionais: iniciar o prompt exigindo respostas apenas a partir de fontes citadas e admitir “não sei” quando faltarem dados. Segundo, contextuais: anexar trechos verificados (leis, contratos) e exigir citações via RAG para ancorar a saída. Terceiro, processuais: adotar revisão humana, checagem automática e logs de auditoria.
Os LLMs de hoje podem imitar padrões como um papagaio e não ter o raciocínio de um gato doméstico, mas é fácil perder de vista a ferramenta poderosa que já temos na ponta dos dedos.
Com o campo avançando a uma velocidade de tirar o fôlego, essas comparações podem em breve parecer obsoletas. O que mais importa é o "agora".
Ao elaborar prompts precisos, conduzir avaliações rigorosas e implementar barreiras de proteção inteligentes, podemos aproveitar a IA de hoje não apenas para contornar suas limitações, mas para criar sistemas que sejam práticos, confiáveis e transformadores.
As 03 grandes ondas que atingirão a advocacia até 2035
De acordo com o estudo "The Future of Law Firms - 2025" da Thomson Reuters, a inteligência artificial generativa causará um impacto de 03 grandes ondas nos escritórios de advocacia nos próximos 10 anos, sendo que em 2035 sobreviverão apenas os "vencedores da IA".
Esse estudo leva em conta que as ferramentas de IA, treinadas com o principal insumo do trabalho jurídico (o texto), ficarão cada vez melhores e, junto com ferramentas de automação, farão boa parte das tarefas hoje realizadas pelos advogados.
É nesse contexto que surge a Advocacia 6.0, que é a 6ª geração de advogados brasileiros que atuará em conjunto com as máquinas, em uma verdadeira simbiose, para entregar serviços jurídicos mais ágeis, mais precisos e mais satisfatórios para os seus clientes.
Venha entender a disrupção que acontecerá no mercado jurídico nos próximos anos e como você pode se adequar rapidamente a ela:
Obrigado!
Mauro Roberto Martins Junior
Comments