O Capítulo 3 tem o objetivo de mapear profundamente o problema a ser resolvido antes de abordar as tecnologias em si, detalhando as diretrizes normativas, as métricas de proficiência e as limitações da avaliação humana.
3.1 Correção Automática de Redações
Esta seção faz a distinção técnica na área de Processamento de Linguagem Natural (PLN) entre duas abordagens fundamentais da avaliação textual mecanizada.
AES (Automated Essay Scoring)
Abordagem somativa, focada apenas na atribuição de uma nota numérica baseada em critérios estatísticos ou de regressão linear, sem providenciar explicações diretas ao aluno.
AEE (Automated Essay Evaluation)
Abordagem formativa, voltada especificamente para a geração de um feedback pedagógico estruturado e sugestões de melhoria corretiva para o desenvolvimento do aluno.
Abordagem Unificada (CAR)
A pesquisa adota o conceito unificado de CAR (Correção Automática de Redação). Justifica-se o uso de LLMs em detrimento de modelos clássicos, pois estes conseguem simultaneamente classificar a nota (Scoring) e gerar a justificativa textual (Evaluation) numa única etapa de inferência via prompts estruturados.
3.2 Matriz de Referência e Multidimensionalidade
A seção detalha o modelo analítico do ENEM e como ele afeta a construção da IA. Diferente de exames internacionais que usam correção holística (nota global), o ENEM divide a avaliação em cinco eixos cognitivos independentes que variam de 0 a 200 pontos:
Competência 1
Norma Culta
Obediência estrita às regras gramaticais, ortografia e verificação da fluidez sintática geral do texto.
Competência 2
Tema e Estrutura
Compreensão da proposta temática e uso adequado da macroestrutura dissertativo-argumentativa e repertórios.
Competência 3
Argumentação
Seleção, organização e interpretação analítica de fatos e opiniões para defesa consistente de um ponto de vista.
Competência 4
Coesão
Uso eficaz de mecanismos linguísticos (operadores, conectivos e referências) para construção do tecido textual.
Competência 5
Intervenção
Elaboração de proposta de solução detalhada para o problema abordado que respeite obrigatoriamente os direitos humanos.
O desafio técnico evidenciado pela tese é o rigoroso isolamento de critérios. O sistema deve garantir que o desempenho gramatical de um aluno não influencie a leitura algorítmica sobre a sua argumentação, evitando o "efeito halo" na inferência computacional.
Solução: Agentes Especialistas (Personas)
O estudo propõe a Decomposição de Tarefas, fragmentando a correção em cinco subtarefas focadas e independentes. Isso maximiza a atenção (Attention Mechanism) do modelo exclusivamente para os descritores e manuais de cada eixo no exato momento da avaliação.
3.3 Princípio da Discrepância e a Natureza Discreta
Esta seção foca no funcionamento matemático do sistema de notas do ENEM e como as regras oficiais de divergência humana estabelecem as metas de precisão métrica absolutas para a Inteligência Artificial.
1. A Natureza Discreta da Escala
As notas avaliativas não formam uma escala contínua decimal, mas progridem obrigatoriamente em degraus fixos de 40 em 40 pontos (0, 40, 80, 120, 160 e 200).
Níveis de Proficiência Oficiais (INEP)
2. O Princípio da Discrepância
A nota oficial é a média de dois corretores. Se a diferença for superior a 100 pontos no total ou superar 80 pontos numa competência individual, a redação é encaminhada para um terceiro avaliador.
3. Métrica de Sucesso Computacional
O modelo de IA atinge paridade humana aceitável se o seu Erro Médio Absoluto (MAE) for estritamente inferior a 40 pontos por competência, o que corresponde matematicamente a menos de um "degrau" de erro na matriz de correção.
3.4 Complexidade da Referência e Subjetividade
Aborda os desafios metodológicos profundos de treinar uma IA em cenários pedagógicos sem gabaritos binários (certo ou errado) e o impacto direto do viés humano na integridade da base de dados fornecida.
1. Inexistência de Gabarito Binário
A referência não é uma lista simples de respostas, mas sim os densos Manuais de Correção oficiais. Neles, o INEP define conceitos de alta abstração semântica como "repertório legitimado" e "lacuna argumentativa".
2. Subjetividade Inerente
A avaliação textual envolve critérios subjetivos naturalmente ruidosos. Historicamente, entre 20% e 40% das redações precisam de um terceiro corretor. O dataset não é uma verdade absoluta, mas um consenso estatístico humano mediado pelos manuais.
3.4.1 O Efeito Negativo das Notas Intermediárias
Origem e Magnitude do Ruído
Médias de corretores divergentes geram notas inexistentes na grade oficial (ex: nota 150). Auditorias confirmaram que 65,5% do dataset bruto estava contaminado por estas inconsistências matemáticas.
Alucinação Normativa
Estes valores intermédios induzem o modelo de linguagem a prever saídas impossíveis. É estatisticamente superior treinar a IA para classificar os níveis originais isolados do que tentar prever a média flutuante resultante do ruído humano.
A Solução: Sanitização Normativa
Arredondamento de Ruído
Exemplos com notas fora da escala oficial foram rigorosamente removidos ou arredondados para o degrau oficial mais próximo e válido (0, 40, 80, 120, 160 ou 200).
Foco na Classificação Fixa
A solução metodológica define que a IA deve ser treinada apenas para identificar e respeitar os níveis de competência originais puros, ignorando a média flutuante resultante de terceiras avaliações.
Objetivo Final da Sanitização: Garantir metodologicamente que o sinal de treinamento do modelo algorítmico reflita exclusiva e rigorosamente as regras oficiais do exame (Cartilha do INEP), eliminando as distorções que afetavam 65,5% dos dados originais extraídos.