O Capítulo 6 estrutura o desenho metodológico da pesquisa, detalhando desde o processo de descoberta de conhecimento até a configuração rigorosa dos agentes de IA e dos ambientes físicos de teste.
6.1 Enquadramento Metodológico: O Processo KDD
Esta seção estabelece a base formal utilizada para guiar o tratamento de dados e o treinamento dos modelos da pesquisa. O estudo estrutura a sua metodologia sob a ótica do KDD (Knowledge Discovery in Databases), um processo não trivial de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis a partir dos dados.
O fluxo de engenharia atua em cinco etapas sequenciais e iterativas, partindo da base bruta até à consolidação do conhecimento:
Etapa inicial onde os dados escolhidos são extraídos de forma sistemática da base de dados original.
Tratamento inicial da informação, essencial para limpar ruídos indesejados e inconsistências estruturais.
Conversão ou consolidação da arquitetura de dados para gerar uma estrutura otimizada e transformada.
Aplicação ativa dos algoritmos de IA sobre os dados transformados para extração eficiente de informações.
Análise crítica dos padrões computacionais gerados para validar definitivamente o conhecimento descoberto.
A Justificativa Metodológica
Esta fundamentação justifica a abordagem da tese: a transição do modelo de linguagem de um estado generalista para um especialista nas competências do ENEM depende não apenas da arquitetura da rede, mas de um pipeline rigoroso de curadoria e descoberta de padrões em dados de alta qualidade.
6.2 Engenharia de Dados e Curadoria Algorítmica
Esta seção estabelece a premissa fundamental da pesquisa: em tarefas de alta complexidade cognitiva, como a avaliação pedagógica, a eficiência de um LLM não é limitada primariamente pelo tamanho de sua rede neural, mas sim pela qualidade, estrutura e densidade informacional dos dados que o instruem.
6.2.1 IA Centrada em Dados (Data-Centric AI)
Rompendo com a abordagem tradicional focada apenas no modelo (alteração de hiperparâmetros da rede), a pesquisa abraça a engenharia sistemática dos dados para reduzir a entropia informacional e maximizar a Relação Sinal-Ruído (SNR):
A correlação pedagógica válida e legítima entre o texto do aluno e a nota atribuída.
Inconsistências de formatação ou ambiguidades que confundem o algoritmo e destroem a convergência.
6.2.2 Limite do Aprendizado com Dados Ruidosos
A premissa de que injetar um volume massivo de dados compensaria a falta de limpeza foi totalmente refutada. O treino com o dataset bruto gerou um Colapso por Ruído Estatístico, inviabilizando o modelo com cinco sintomas críticos:
Assumiu nota inválida (150) como padrão principal.
Incapacidade de classificar fora do viés (F1-Score nulo).
Fracasso absoluto em seguir a escala oficial do INEP.
Geração repetida de notas fora da grade de correção.
Falhas severas no fechamento das tags por confusão lógica.
6.2.3 A Raiz do Problema: Ruído Normativo
A falha na convergência do gradiente de erro foi causada pela presença de quase 5.000 amostras corrompidas na base de dados, impactando o modelo da seguinte forma:
Causaram desvio de moda, deslocando pesos para classe inválida.
Induziram erro de gradação, ignorando intervalos de 40 pontos.
Geraram viés de arredondamento e confusão interpretativa.
6.2.4 O Efeito Letal: Diluição Semântica
As 27.206 redações válidas acabaram sendo "sufocadas" pela forte presença destes rótulos inconsistentes. O estudo prova categoricamente que um LLM exposto a lixo estatístico não apenas falha pedagogicamente nas suas predições, mas também perde completamente a sua integridade estrutural básica.
6.3 Estratégia de Validação e Reprodutibilidade
Detalha o rigor metodológico adotado para assegurar que a comparação de desempenho entre as diferentes arquiteturas de LLMs seja justa e cientificamente válida. Optou-se pela técnica de Validação Hold-out Estática, fixando um subconjunto de dados representativo antes do treinamento devido ao elevado custo computacional da validação cruzada dinâmica.
Engenharia do Dataset V13
Isolamento de Teste
Separação de 1.576 exemplos de instrução, constituindo um conjunto de teste robusto que representa aproximadamente 5% do total do corpus.
Determinismo Físico
Segregação realizada com uma semente determinística (seed=42) e persistida fisicamente em disco, criando um "gabarito" invariável.
Proporção de Treino
Aplicação de uma estratégia de "explosão" (1:5) que gerou 29.944 linhas exclusivas para treinamento. O processamento total atingiu 31.520 amostras.
Impacto Metodológico
O isolamento estático destes dados elimina a variância da amostragem como fator de confusão. Ao submeter todos os modelos exatamente aos mesmos exemplos de teste, garante-se que não houve favorecimento acidental, atribuindo as diferenças nas métricas de desempenho final exclusivamente às capacidades intrínsecas e ao raciocínio de cada arquitetura neural.
6.4 Arquitetura de Agentes (Personas) e Engenharia de Prompt
Esta seção detalha o núcleo tecnológico e cognitivo do sistema desenvolvido. A eficácia do modelo não se apoia apenas na atualização de pesos via Fine-Tuning, mas depende fundamentalmente do Aprendizado em Contexto (In-Context Learning). Este fenômeno permite que a IA refine as suas inferências com base em instruções semânticas na janela de contexto, sem calcular novos gradientes.
Prompting Estruturado e Restrição de Escopo
Em vez de criar arquiteturas neurais diferentes para cada critério, o sistema especializa o modelo injetando "Regras e Restrições" no campo system do prompt, traduzindo os manuais do INEP para linguagem computacional.
A grande inovação é o uso combinado de Instruções Positivas (o que a IA deve buscar ativamente) e Instruções Negativas (o que a IA é expressamente proibida de avaliar), forçando a restrição de escopo de cada Persona.
Domínio da Modalidade Escrita Formal
Avaliar exclusivamente a estrutura sintática e os desvios gramaticais e de convenção de escrita.
Deixa de atuar como assistente generalista e transforma-se num classificador especializado rígido, isolando a análise morfossintática e suprimindo críticas argumentativas.
Rastrear falhas de oração (truncamento/justaposição) e desvios de acentuação, ortografia, hífen, maiúsculas, concordância, regência e crase.
NÃO penalizar a qualidade dos argumentos, NÃO penalizar a repetição de palavras (pertence à C4) e NÃO avaliar a estética da letra.
Tema e Estrutura Dissertativa
Avaliar a intersecção de três pilares: a abordagem do Tema, a Estrutura (introdução, desenvolvimento e conclusão) e o Repertório Sociocultural.
Atua como analista de conteúdo, filtrando ruídos gramaticais para focar na macroestrutura, deteção de âncoras semânticas e marcadores de repertório.
Verificar tangenciamento do tema (uso de palavras-chave), se o texto não é um monobloco e se o repertório é legitimado, pertinente e produtivo.
NÃO penalizar erros de gramática (que pertencem à C1) e NÃO avaliar a qualidade da intervenção (que pertence à C5).
Coerência e Projeto de Texto
Avaliar o planeamento prévio, a seleção, relação, organização e interpretação de argumentos em defesa de um ponto de vista.
Atua como crítico de inferência lógica e encadeamento de ideias, distinguindo falhas lógicas reais de falhas meramente conectivas superficiais.
Analisar se as ideias progridem ou são circulares e se o texto possui autoria verdadeira (indo além da mera cópia dos textos motivadores).
NÃO penalizar a falta de conectivos isolados (tarefa da C4), devendo focar na falta de nexo causal. NÃO penalizar erros de grafia (C1).
Mecanismos Linguísticos (Coesão)
Rastrear a coesão referencial (evitar repetições) e a coesão sequencial (uso de operadores argumentativos) em todo o texto.
O modelo deixa de avaliar as ideias para operar como um auditor de sintaxe coesiva, contando e verificando a fluidez estrutural das transições textuais.
Procurar ativamente o uso de pronomes, sinónimos, elipses, e a presença de operadores intraparágrafos e interparágrafos (no início dos blocos).
NÃO julgar a força ou o conteúdo do argumento (tarefa da C3), devendo atestar apenas se as frases estão ligadas linguisticamente de forma correta.
Proposta de Intervenção
Validar rigorosamente o critério quantitativo de completude exigido para a solução do problema social abordado no texto.
Transita de analista de discurso para validador de requisitos estritos, segmentando orações para classificar cada elemento da proposta.
Funcionar como algoritmo de Slot-Filling. Buscar os 5 elementos obrigatórios: Agente, Ação, Meio/Modo, Efeito e Detalhamento, além do respeito aos Direitos Humanos.
NÃO julgar a viabilidade técnica profunda ou a originalidade da proposta, tampouco penalizar erros gramaticais nela contidos (C1).
6.5 Métricas de Avaliação Multidimensional
Estabelece um arcabouço métrico rigoroso para avaliar os modelos generativos aplicados à correção de redações. Como essa avaliação exige resolver uma tarefa de natureza híbrida — que envolve regressão (predição de notas), classificação (níveis de competência) e geração de linguagem natural (texto de feedback) —, o estudo consolidou a auditoria do sistema em três eixos distintos.
6.5.1 Eixo de Precisão Pedagógica e Regressão
Quantifica a capacidade do modelo em emular com exatidão o comportamento de um corretor humano na escala ordinal do ENEM, ancorado por três cálculos:
Métrica primária em AES. Mede a concordância humano-máquina usando uma matriz de pesos que penaliza divergências de forma quadrática (ex: punindo severamente atribuir nota 200 a um texto de nota 0).
Fornece a magnitude média do erro expresso em pontos. Estabeleceu-se que um MAE ≤ 40 valida a premissa de que o erro do sistema se mantém restrito ao limite de uma única faixa da matriz oficial.
Métrica operacional desenhada a partir da regra de discrepância do INEP. Contabiliza um sucesso sempre que a predição estiver na vizinhança imediata da referência (tolerância de até 40 pontos).
6.5.2 Eixo de Qualidade do Feedback (NLP)
Audita rigorosamente a correção gramatical e semântica do texto de feedback devolvido ao aluno, utilizando métricas que medem desde a similaridade vetorial até a sobreposição sintática:
Usa embeddings contextuais profundos para calcular a similaridade de cosseno. É vital pois reconhece o uso de paráfrases e sinônimos, preservando a semântica sem exigir cópia exata de vocabulário.
Opera com base na Longa Subsequência Comum (LCS). O objetivo é medir e assegurar a preservação e a ordem da estrutura sintática original na resposta gerada pelo modelo.
Introduz uma penalidade de fragmentação explícita para auditar a fluidez. Considera mecanismos complexos, como sinonímia e radicalização, recompensando a inteligência textual do modelo.
6.5.3 Eixo de Estabilidade de Sistema
Garante a viabilidade técnica e arquitetural de colocar esses modelos em produção (deploy) em hardwares com infraestrutura de borda.
Audita exclusivamente a integridade sintática e estrutural da resposta. Contabiliza o número de vezes em que o modelo retornou as análises e notas em formatos rígidos de código (JSON ou XML) perfeitamente válidos, garantindo que o ruído gerativo da IA não quebre a integração com o software principal.
6.6 Protocolo de Seleção de Modelos
Detalha a estratégia adotada para escolher as redes neurais que compõem o estudo. Diferente das abordagens puramente comerciais, a pesquisa investigou o ponto de equilíbrio exato: qual é a arquitetura mínima capaz de oferecer suporte pedagógico funcional, respeitando os severos limites de hardware dos SBCs.
6.6.1 Detalhamento das Arquiteturas
A seleção baseou-se em inovações arquiteturais específicas para Processamento de Linguagem Natural em cenários de recursos limitados. Foram testados seis modelos:
Prova de conceito do over-training (3 trilhões de tokens). Forte na inferência em tempo real em SBCs, mas sofre com baixa retenção de conhecimento factual.
Ensinado por um modelo professor gigante (Knowledge Distillation). Supera modelos com o dobro do tamanho, mas é mais sensível à formatação do prompt.
Uso de Textbook Quality Data. Permite raciocínio lógico-matemático de alto nível, sendo vital para avaliar a coerência argumentativa (Agente C3).
A inovação central é a Sliding Window Attention (SWA), que resolve o custo quadrático de memória ao processar textos longos, garantindo eficiência de VRAM.
Maior densidade (18 trilhões de tokens). Especialista em matemática e formatos rígidos (JSON/XML), ideal para extrair as entidades da intervenção (Agente C5).
Treinado em 15 trilhões de tokens. É o limite superior de qualidade, servindo como régua para medir a distância dos modelos menores e mais baratos.
6.6.2 Estratificação dos Modelos
Detalha a metodologia de categorização das seis arquiteturas em três estratos teóricos, cruzando a densidade informacional (tokens de pré-treino) com o perfil de hardware exigido (memória RAM) via quantização de 4-bits para SBCs:
Modelos mais enxutos: TinyLlama 1.1B (3.0T tokens) e Gemma 2 2.6B (2.0T tokens). Exigem entre 2GB e 3GB de RAM para operar.
Representada exclusivamente pelo Phi-3 Mini 3.8B (3.3T tokens). Necessita de aproximadamente 4GB de RAM para operar.
Modelos robustos: Mistral 7.3B, Qwen 2.5 7.6B (18.0T tokens) e Llama 3.1 8.0B (15.0T tokens). Demandam placas com 8GB de RAM ou mais.
O Propósito da Classe Standard
A execução de modelos maiores esbarra no gargalo de largura de banda de memória (Memory Wall). Diante dessa restrição, eles figuram na pesquisa exclusivamente como o Limite Superior Teórico (Upper Bound). Servem como a régua de excelência metodológica para validar se os modelos menores (Nano e Small, o verdadeiro foco do projeto) conseguem atingir um desempenho estatisticamente comparável ao estado da arte, usando apenas uma fração dos recursos.
6.6.3 Restrições de Hardware e Dados
Aprofunda os critérios técnicos que fundamentam a categorização e seleção dos modelos, baseando-se em dois pilares essenciais que determinam a viabilidade teórica de sua execução em SBCs:
1. Densidade de Treinamento (Tokens)
Analisa o "Volume de Treino" (quantidade total de tokens processados no pré-treinamento). O desempenho não depende exclusivamente de quantos parâmetros o modelo possui, mas sim da quantidade massiva de dados a que foi exposto (proporção ótima aproximada de 20 tokens para cada parâmetro).
O modelo Qwen 2.5 (pré-treinado com colossais 18 trilhões de tokens) testa e valida a hipótese de que a exposição massiva a dados estruturados tem correlação direta com a capacidade de generalização e obediência cega a regras rígidas (como sintaxe XML).
2. Cálculo de Viabilidade de Memória (Quantização)
Apresenta a prova matemática da viabilidade física do projeto. Em precisão original (FP16), uma rede exige 2 bytes por parâmetro (um modelo de 8B exigiria ~16 GB de RAM), inviabilizando dispositivos embarcados. A solução é a Quantização de 4-bits (GGUF/Q4_K_M), cuja estimativa de consumo segue a equação linear:
Requerem < 2.5 GB. Teoricamente compatíveis com dispositivos legados (sucata tecnológica) de 2GB a 4GB de RAM compartilhada.
Com 3.8B parâmetros, a equação estima ~2.7 GB. É o Ponto de Equilíbrio (Sweet Spot): capacidade lógica superior à Nano, mantendo-se no limite das placas de 4 GB com margem para o Sistema Operacional.
Com 8B parâmetros, a ocupação mínima é de ~5.6 GB. Matematicamente incompatível com placas de 4 GB, exigindo obrigatoriamente hardware com 8 GB de RAM (Limite Superior / Upper Bound).
6.7 Configuração dos Ambientes de Teste (Hardware)
Descreve o aparato físico e experimental montado para validar as hipóteses de viabilidade técnica e pedagógica do sistema AInclude. A metodologia adotada foi estruturada em fases incrementais de complexidade, partindo de um ambiente de controle confortável até a submissão dos modelos a hardwares com restrições severas de memória e processamento.
6.7.1 Ambiente de Desenvolvimento (Baseline x86)
Notebook Dell Inspiron 15 com processador Intel Core i5-1135G7 (11ª Geração, 4 núcleos/8 threads a 2.40GHz), 8 GB de RAM DDR4, SSD NVMe e Windows 11 Home.
Base para validação dos scripts de inferência, Engenharia de Prompt e testes de sanidade funcional (GGUF). Mediu o tempo de inferência na arquitetura x64 (CISC) antes da migração para ARM (RISC).
6.7.2 Ambiente de Restrição Extrema
SBC legado: Raspberry Pi 3 Model B. Processador Broadcom BCM2837 (Quad Core ARM Cortex-A53 a 1.2GHz), microSD de 64GB, Raspberry Pi OS 32-bits e crítico 1 GB de RAM (compartilhada com GPU).
Testar o "Limite Inferior de Viabilidade" para modelos Nano (< 3B). Atuou como laboratório de estresse para documentar falhas por Out-Of-Memory (OOM), onde o SO mata a IA para evitar o crash total.
6.7.3 Ambiente de Validação Final
Hardware moderno de borda: Raspberry Pi 5. Processador Broadcom BCM2712 (Quad Core ARM Cortex-A76 a 2.4GHz), 8 GB de RAM LPDDR4X-4267 e Linux Debian 12 (Bookworm) 64-bits.
Uso do motor llama.cpp otimizado nativamente para ARM (NEON/VFPv4). Cenário definitivo onde as medições reais de throughput (tokens por segundo - t/s) e as correções oficiais aconteceram.