Voltar ao Capítulo 5
Execução Científica

Capítulo 6: Metodologia Experimental e Engenharia de Dados

O Capítulo 6 estrutura o desenho metodológico da pesquisa, detalhando desde o processo de descoberta de conhecimento até a configuração rigorosa dos agentes de IA e dos ambientes físicos de teste.

6.1 Enquadramento Metodológico: O Processo KDD

Esta seção estabelece a base formal utilizada para guiar o tratamento de dados e o treinamento dos modelos da pesquisa. O estudo estrutura a sua metodologia sob a ótica do KDD (Knowledge Discovery in Databases), um processo não trivial de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis a partir dos dados.

O fluxo de engenharia atua em cinco etapas sequenciais e iterativas, partindo da base bruta até à consolidação do conhecimento:

1. Seleção

Etapa inicial onde os dados escolhidos são extraídos de forma sistemática da base de dados original.

2. Pré-Processo

Tratamento inicial da informação, essencial para limpar ruídos indesejados e inconsistências estruturais.

3. Transformação

Conversão ou consolidação da arquitetura de dados para gerar uma estrutura otimizada e transformada.

4. Mineração

Aplicação ativa dos algoritmos de IA sobre os dados transformados para extração eficiente de informações.

5. Avaliação

Análise crítica dos padrões computacionais gerados para validar definitivamente o conhecimento descoberto.

A Justificativa Metodológica

Esta fundamentação justifica a abordagem da tese: a transição do modelo de linguagem de um estado generalista para um especialista nas competências do ENEM depende não apenas da arquitetura da rede, mas de um pipeline rigoroso de curadoria e descoberta de padrões em dados de alta qualidade.

6.2 Engenharia de Dados e Curadoria Algorítmica

Esta seção estabelece a premissa fundamental da pesquisa: em tarefas de alta complexidade cognitiva, como a avaliação pedagógica, a eficiência de um LLM não é limitada primariamente pelo tamanho de sua rede neural, mas sim pela qualidade, estrutura e densidade informacional dos dados que o instruem.

6.2.1 IA Centrada em Dados (Data-Centric AI)

Rompendo com a abordagem tradicional focada apenas no modelo (alteração de hiperparâmetros da rede), a pesquisa abraça a engenharia sistemática dos dados para reduzir a entropia informacional e maximizar a Relação Sinal-Ruído (SNR):

Sinal

A correlação pedagógica válida e legítima entre o texto do aluno e a nota atribuída.

Ruído

Inconsistências de formatação ou ambiguidades que confundem o algoritmo e destroem a convergência.

6.2.2 Limite do Aprendizado com Dados Ruidosos

A premissa de que injetar um volume massivo de dados compensaria a falta de limpeza foi totalmente refutada. O treino com o dataset bruto gerou um Colapso por Ruído Estatístico, inviabilizando o modelo com cinco sintomas críticos:

150 Sobreajuste

Assumiu nota inválida (150) como padrão principal.

0.0 Generalização

Incapacidade de classificar fora do viés (F1-Score nulo).

< 5% Acurácia

Fracasso absoluto em seguir a escala oficial do INEP.

> 30% Alucinação

Geração repetida de notas fora da grade de correção.

XML

Falhas severas no fechamento das tags por confusão lógica.

6.2.3 A Raiz do Problema: Ruído Normativo

A falha na convergência do gradiente de erro foi causada pela presença de quase 5.000 amostras corrompidas na base de dados, impactando o modelo da seguinte forma:

1.768
Nota 150

Causaram desvio de moda, deslocando pesos para classe inválida.

2.023
Nota 100

Induziram erro de gradação, ignorando intervalos de 40 pontos.

1.059
Nota 50

Geraram viés de arredondamento e confusão interpretativa.

6.2.4 O Efeito Letal: Diluição Semântica

As 27.206 redações válidas acabaram sendo "sufocadas" pela forte presença destes rótulos inconsistentes. O estudo prova categoricamente que um LLM exposto a lixo estatístico não apenas falha pedagogicamente nas suas predições, mas também perde completamente a sua integridade estrutural básica.

6.3 Estratégia de Validação e Reprodutibilidade

Detalha o rigor metodológico adotado para assegurar que a comparação de desempenho entre as diferentes arquiteturas de LLMs seja justa e cientificamente válida. Optou-se pela técnica de Validação Hold-out Estática, fixando um subconjunto de dados representativo antes do treinamento devido ao elevado custo computacional da validação cruzada dinâmica.

Engenharia do Dataset V13

Isolamento de Teste

Separação de 1.576 exemplos de instrução, constituindo um conjunto de teste robusto que representa aproximadamente 5% do total do corpus.

Determinismo Físico

Segregação realizada com uma semente determinística (seed=42) e persistida fisicamente em disco, criando um "gabarito" invariável.

Proporção de Treino

Aplicação de uma estratégia de "explosão" (1:5) que gerou 29.944 linhas exclusivas para treinamento. O processamento total atingiu 31.520 amostras.

Impacto Metodológico

O isolamento estático destes dados elimina a variância da amostragem como fator de confusão. Ao submeter todos os modelos exatamente aos mesmos exemplos de teste, garante-se que não houve favorecimento acidental, atribuindo as diferenças nas métricas de desempenho final exclusivamente às capacidades intrínsecas e ao raciocínio de cada arquitetura neural.

6.4 Arquitetura de Agentes (Personas) e Engenharia de Prompt

Esta seção detalha o núcleo tecnológico e cognitivo do sistema desenvolvido. A eficácia do modelo não se apoia apenas na atualização de pesos via Fine-Tuning, mas depende fundamentalmente do Aprendizado em Contexto (In-Context Learning). Este fenômeno permite que a IA refine as suas inferências com base em instruções semânticas na janela de contexto, sem calcular novos gradientes.

Prompting Estruturado e Restrição de Escopo

Em vez de criar arquiteturas neurais diferentes para cada critério, o sistema especializa o modelo injetando "Regras e Restrições" no campo system do prompt, traduzindo os manuais do INEP para linguagem computacional.

A grande inovação é o uso combinado de Instruções Positivas (o que a IA deve buscar ativamente) e Instruções Negativas (o que a IA é expressamente proibida de avaliar), forçando a restrição de escopo de cada Persona.

C1

Domínio da Modalidade Escrita Formal

Foco Teórico

Avaliar exclusivamente a estrutura sintática e os desvios gramaticais e de convenção de escrita.

Comportamento Alcançado

Deixa de atuar como assistente generalista e transforma-se num classificador especializado rígido, isolando a análise morfossintática e suprimindo críticas argumentativas.

Instruções Positivas

Rastrear falhas de oração (truncamento/justaposição) e desvios de acentuação, ortografia, hífen, maiúsculas, concordância, regência e crase.

Instruções Negativas

NÃO penalizar a qualidade dos argumentos, NÃO penalizar a repetição de palavras (pertence à C4) e NÃO avaliar a estética da letra.

C2

Tema e Estrutura Dissertativa

Foco Teórico

Avaliar a intersecção de três pilares: a abordagem do Tema, a Estrutura (introdução, desenvolvimento e conclusão) e o Repertório Sociocultural.

Comportamento Alcançado

Atua como analista de conteúdo, filtrando ruídos gramaticais para focar na macroestrutura, deteção de âncoras semânticas e marcadores de repertório.

Instruções Positivas

Verificar tangenciamento do tema (uso de palavras-chave), se o texto não é um monobloco e se o repertório é legitimado, pertinente e produtivo.

Instruções Negativas

NÃO penalizar erros de gramática (que pertencem à C1) e NÃO avaliar a qualidade da intervenção (que pertence à C5).

C3

Coerência e Projeto de Texto

Foco Teórico

Avaliar o planeamento prévio, a seleção, relação, organização e interpretação de argumentos em defesa de um ponto de vista.

Comportamento Alcançado

Atua como crítico de inferência lógica e encadeamento de ideias, distinguindo falhas lógicas reais de falhas meramente conectivas superficiais.

Instruções Positivas

Analisar se as ideias progridem ou são circulares e se o texto possui autoria verdadeira (indo além da mera cópia dos textos motivadores).

Instruções Negativas

NÃO penalizar a falta de conectivos isolados (tarefa da C4), devendo focar na falta de nexo causal. NÃO penalizar erros de grafia (C1).

C4

Mecanismos Linguísticos (Coesão)

Foco Teórico

Rastrear a coesão referencial (evitar repetições) e a coesão sequencial (uso de operadores argumentativos) em todo o texto.

Comportamento Alcançado

O modelo deixa de avaliar as ideias para operar como um auditor de sintaxe coesiva, contando e verificando a fluidez estrutural das transições textuais.

Instruções Positivas

Procurar ativamente o uso de pronomes, sinónimos, elipses, e a presença de operadores intraparágrafos e interparágrafos (no início dos blocos).

Instruções Negativas

NÃO julgar a força ou o conteúdo do argumento (tarefa da C3), devendo atestar apenas se as frases estão ligadas linguisticamente de forma correta.

C5

Proposta de Intervenção

Foco Teórico

Validar rigorosamente o critério quantitativo de completude exigido para a solução do problema social abordado no texto.

Comportamento Alcançado

Transita de analista de discurso para validador de requisitos estritos, segmentando orações para classificar cada elemento da proposta.

Instruções Positivas

Funcionar como algoritmo de Slot-Filling. Buscar os 5 elementos obrigatórios: Agente, Ação, Meio/Modo, Efeito e Detalhamento, além do respeito aos Direitos Humanos.

Instruções Negativas

NÃO julgar a viabilidade técnica profunda ou a originalidade da proposta, tampouco penalizar erros gramaticais nela contidos (C1).

6.5 Métricas de Avaliação Multidimensional

Estabelece um arcabouço métrico rigoroso para avaliar os modelos generativos aplicados à correção de redações. Como essa avaliação exige resolver uma tarefa de natureza híbrida — que envolve regressão (predição de notas), classificação (níveis de competência) e geração de linguagem natural (texto de feedback) —, o estudo consolidou a auditoria do sistema em três eixos distintos.

6.5.1 Eixo de Precisão Pedagógica e Regressão

Quantifica a capacidade do modelo em emular com exatidão o comportamento de um corretor humano na escala ordinal do ENEM, ancorado por três cálculos:

Quadratic Weighted Kappa

Métrica primária em AES. Mede a concordância humano-máquina usando uma matriz de pesos que penaliza divergências de forma quadrática (ex: punindo severamente atribuir nota 200 a um texto de nota 0).

Erro Médio Absoluto (MAE)

Fornece a magnitude média do erro expresso em pontos. Estabeleceu-se que um MAE ≤ 40 valida a premissa de que o erro do sistema se mantém restrito ao limite de uma única faixa da matriz oficial.

Acurácia Tolerante

Métrica operacional desenhada a partir da regra de discrepância do INEP. Contabiliza um sucesso sempre que a predição estiver na vizinhança imediata da referência (tolerância de até 40 pontos).

6.5.2 Eixo de Qualidade do Feedback (NLP)

Audita rigorosamente a correção gramatical e semântica do texto de feedback devolvido ao aluno, utilizando métricas que medem desde a similaridade vetorial até a sobreposição sintática:

BERTScore

Usa embeddings contextuais profundos para calcular a similaridade de cosseno. É vital pois reconhece o uso de paráfrases e sinônimos, preservando a semântica sem exigir cópia exata de vocabulário.

ROUGE-L

Opera com base na Longa Subsequência Comum (LCS). O objetivo é medir e assegurar a preservação e a ordem da estrutura sintática original na resposta gerada pelo modelo.

METEOR

Introduz uma penalidade de fragmentação explícita para auditar a fluidez. Considera mecanismos complexos, como sinonímia e radicalização, recompensando a inteligência textual do modelo.

6.5.3 Eixo de Estabilidade de Sistema

Garante a viabilidade técnica e arquitetural de colocar esses modelos em produção (deploy) em hardwares com infraestrutura de borda.

Taxa de Sucesso JSON (SuccessJSON)

Audita exclusivamente a integridade sintática e estrutural da resposta. Contabiliza o número de vezes em que o modelo retornou as análises e notas em formatos rígidos de código (JSON ou XML) perfeitamente válidos, garantindo que o ruído gerativo da IA não quebre a integração com o software principal.

6.6 Protocolo de Seleção de Modelos

Detalha a estratégia adotada para escolher as redes neurais que compõem o estudo. Diferente das abordagens puramente comerciais, a pesquisa investigou o ponto de equilíbrio exato: qual é a arquitetura mínima capaz de oferecer suporte pedagógico funcional, respeitando os severos limites de hardware dos SBCs.

6.6.1 Detalhamento das Arquiteturas

A seleção baseou-se em inovações arquiteturais específicas para Processamento de Linguagem Natural em cenários de recursos limitados. Foram testados seis modelos:

TinyLlama 1.1B
Viabilidade Extrema

Prova de conceito do over-training (3 trilhões de tokens). Forte na inferência em tempo real em SBCs, mas sofre com baixa retenção de conhecimento factual.

Gemma 2 2B (2.6B)
Eficiência via Destilação

Ensinado por um modelo professor gigante (Knowledge Distillation). Supera modelos com o dobro do tamanho, mas é mais sensível à formatação do prompt.

Phi-3 Mini 3.8B
Ponto de Equilíbrio

Uso de Textbook Quality Data. Permite raciocínio lógico-matemático de alto nível, sendo vital para avaliar a coerência argumentativa (Agente C3).

Mistral 7B (v0.3)
Contexto Longo

A inovação central é a Sliding Window Attention (SWA), que resolve o custo quadrático de memória ao processar textos longos, garantindo eficiência de VRAM.

Qwen 2.5 7B
Lógica Estruturada

Maior densidade (18 trilhões de tokens). Especialista em matemática e formatos rígidos (JSON/XML), ideal para extrair as entidades da intervenção (Agente C5).

Llama 3.1 8B
Baseline e Padrão-Ouro

Treinado em 15 trilhões de tokens. É o limite superior de qualidade, servindo como régua para medir a distância dos modelos menores e mais baratos.

6.6.2 Estratificação dos Modelos

Detalha a metodologia de categorização das seis arquiteturas em três estratos teóricos, cruzando a densidade informacional (tokens de pré-treino) com o perfil de hardware exigido (memória RAM) via quantização de 4-bits para SBCs:

Classe Nano Low/Mid-Range Edge

Modelos mais enxutos: TinyLlama 1.1B (3.0T tokens) e Gemma 2 2.6B (2.0T tokens). Exigem entre 2GB e 3GB de RAM para operar.

Classe Small Mobile/Consumer

Representada exclusivamente pelo Phi-3 Mini 3.8B (3.3T tokens). Necessita de aproximadamente 4GB de RAM para operar.

Classe Standard High-End Edge

Modelos robustos: Mistral 7.3B, Qwen 2.5 7.6B (18.0T tokens) e Llama 3.1 8.0B (15.0T tokens). Demandam placas com 8GB de RAM ou mais.

O Propósito da Classe Standard

A execução de modelos maiores esbarra no gargalo de largura de banda de memória (Memory Wall). Diante dessa restrição, eles figuram na pesquisa exclusivamente como o Limite Superior Teórico (Upper Bound). Servem como a régua de excelência metodológica para validar se os modelos menores (Nano e Small, o verdadeiro foco do projeto) conseguem atingir um desempenho estatisticamente comparável ao estado da arte, usando apenas uma fração dos recursos.

6.6.3 Restrições de Hardware e Dados

Aprofunda os critérios técnicos que fundamentam a categorização e seleção dos modelos, baseando-se em dois pilares essenciais que determinam a viabilidade teórica de sua execução em SBCs:

1. Densidade de Treinamento (Tokens)

Analisa o "Volume de Treino" (quantidade total de tokens processados no pré-treinamento). O desempenho não depende exclusivamente de quantos parâmetros o modelo possui, mas sim da quantidade massiva de dados a que foi exposto (proporção ótima aproximada de 20 tokens para cada parâmetro).

O modelo Qwen 2.5 (pré-treinado com colossais 18 trilhões de tokens) testa e valida a hipótese de que a exposição massiva a dados estruturados tem correlação direta com a capacidade de generalização e obediência cega a regras rígidas (como sintaxe XML).

2. Cálculo de Viabilidade de Memória (Quantização)

Apresenta a prova matemática da viabilidade física do projeto. Em precisão original (FP16), uma rede exige 2 bytes por parâmetro (um modelo de 8B exigiria ~16 GB de RAM), inviabilizando dispositivos embarcados. A solução é a Quantização de 4-bits (GGUF/Q4_K_M), cuja estimativa de consumo segue a equação linear:

M_RAM ≈ (P × 0.7) + C_KV
Classe Nano

Requerem < 2.5 GB. Teoricamente compatíveis com dispositivos legados (sucata tecnológica) de 2GB a 4GB de RAM compartilhada.

Classe Small

Com 3.8B parâmetros, a equação estima ~2.7 GB. É o Ponto de Equilíbrio (Sweet Spot): capacidade lógica superior à Nano, mantendo-se no limite das placas de 4 GB com margem para o Sistema Operacional.

Classe Standard

Com 8B parâmetros, a ocupação mínima é de ~5.6 GB. Matematicamente incompatível com placas de 4 GB, exigindo obrigatoriamente hardware com 8 GB de RAM (Limite Superior / Upper Bound).

6.7 Configuração dos Ambientes de Teste (Hardware)

Descreve o aparato físico e experimental montado para validar as hipóteses de viabilidade técnica e pedagógica do sistema AInclude. A metodologia adotada foi estruturada em fases incrementais de complexidade, partindo de um ambiente de controle confortável até a submissão dos modelos a hardwares com restrições severas de memória e processamento.

6.7.1 Ambiente de Desenvolvimento (Baseline x86)

Aparato Físico

Notebook Dell Inspiron 15 com processador Intel Core i5-1135G7 (11ª Geração, 4 núcleos/8 threads a 2.40GHz), 8 GB de RAM DDR4, SSD NVMe e Windows 11 Home.

Função no Experimento

Base para validação dos scripts de inferência, Engenharia de Prompt e testes de sanidade funcional (GGUF). Mediu o tempo de inferência na arquitetura x64 (CISC) antes da migração para ARM (RISC).

6.7.2 Ambiente de Restrição Extrema

Aparato Físico

SBC legado: Raspberry Pi 3 Model B. Processador Broadcom BCM2837 (Quad Core ARM Cortex-A53 a 1.2GHz), microSD de 64GB, Raspberry Pi OS 32-bits e crítico 1 GB de RAM (compartilhada com GPU).

Função no Experimento

Testar o "Limite Inferior de Viabilidade" para modelos Nano (< 3B). Atuou como laboratório de estresse para documentar falhas por Out-Of-Memory (OOM), onde o SO mata a IA para evitar o crash total.

6.7.3 Ambiente de Validação Final

Aparato Físico

Hardware moderno de borda: Raspberry Pi 5. Processador Broadcom BCM2712 (Quad Core ARM Cortex-A76 a 2.4GHz), 8 GB de RAM LPDDR4X-4267 e Linux Debian 12 (Bookworm) 64-bits.

Motor e Função

Uso do motor llama.cpp otimizado nativamente para ARM (NEON/VFPv4). Cenário definitivo onde as medições reais de throughput (tokens por segundo - t/s) e as correções oficiais aconteceram.

Tese de Doutorado | Capítulo 6