Diagnóstico e Telemetria

Capítulo 7: Análise dos Resultados

O Capítulo 7 está estruturado numa sequência progressiva de cinco fases laboratoriais (Fases 1 a 5), intercaladas com secções de conclusão que diagnosticam os problemas e guiam as soluções da fase seguinte.

Fase 1

7.1 Resultados: Laboratório de Testes (Fase 1)

Estabelece a fundação prática da pesquisa, focando no desenvolvimento, configuração e validação do funcionamento de Modelos de Linguagem Grande (LLMs) em cenários de infraestrutura severamente limitada (Cenário 1). O objetivo central desta fase é avaliar o desempenho bruto e a viabilidade operacional de modelos executados localmente na borda.

Fase 2

7.2 Resultados: Laboratório de Testes (Fase 2)

Foca na avaliação prática da integração e da operação operacional de Modelos de Linguagem Grande (LLMs) em condições reais de uso. O objetivo central desta fase é validar a funcionalidade local e a interação fluida com a IA em um ambiente totalmente offline (Cenário 1), utilizando a plataforma de orquestração visual LangFlow.

7.3 Conclusão Laboratório de Testes: Fase 1 e 2

Atua como um ponto de síntese e reflexão técnica sobre os resultados obtidos nas duas primeiras etapas do laboratório. O foco central desta divisão é avaliar o desempenho e a eficácia das ferramentas e modelos adotados especificamente para o "Cenário 1", que estipula a aplicação da tecnologia de LLMs em ambientes totalmente offline e projetados para funcionar de maneira eficiente sob condições de infraestrutura severamente limitada.

Fase 3

7.4 Resultados: Laboratório de Testes (Fase 3)

Aprofunda-se na exploração da aplicação de Fine-Tuning (ajuste fino) nos modelos de linguagem e na análise estrutural rigorosa dos dados de treinamento utilizados. Esta fase foi desenhada para testar diferentes hipóteses de arquitetura de treinamento — primeiro em uma estrutura isolada e, posteriormente, em uma estrutura completa —, visando especializar os modelos para a correção automatizada.

7.4.1 LAB 3.1: Análise Técnica da Estrutura dos Datasets

Para viabilizar os experimentos de Fine-Tuning, foram construídos e estruturados dois conjuntos de dados distintos, ambos armazenados no formato JSONL (JSON Lines). A estrutura interna de cada conjunto reflete estratégias metodológicas diametralmente opostas (especialista versus generalista).

7.4.2 LAB 3.2: Critérios de Aceitação e Métricas por Cenário

Para mensurar tecnicamente o impacto das estratégias de Fine-Tuning, estabeleceu-se um protocolo de avaliação comparativa com critérios rígidos de aceitação, dividindo a avaliação em dois eixos (Cenário A e Cenário B) para garantir a comparabilidade entre as arquiteturas (TinyLlama, Phi-3, Gemma e Mistral).

7.5 Conclusão Laboratório de Testes: Fase 3

Apresenta o diagnóstico definitivo sobre as tentativas iniciais de treinamento de LLMs por meio da técnica de Fine-Tuning. Esta divisão documenta de forma analítica e profunda os resultados da aplicação de duas hipóteses metodológicas distintas: o Especialista Gramatical (Dataset A) e o Generalista Bruto (Dataset B). Os dados expostos revelam as limitações críticas de arquiteturas menores quando submetidas a conjuntos de dados com alto nível de ruído ou com instruções de baixa complexidade semântica.

7.6 Conclusão da Fase 3: A Necessidade de Reengenharia

Atua como o ponto de virada crítico na metodologia da pesquisa, estabelecendo o diagnóstico definitivo sobre os colapsos observados nas tentativas iniciais de treinamento e fundamentando a mudança de paradigma que guia o restante do projeto. Abaixo, apresento o detalhamento robusto das conclusões e deliberações documentadas nesta divisão:

Fase 4

7.7 Resultados: Laboratório de Testes (Fase 4)

Documenta o ponto de inflexão metodológica mais crítico da pesquisa. Após os colapsos observados na Fase 3, o estudo abandonou a busca pela arquitetura ideal e pivotou para a "construção do dado ideal". O objetivo desta fase foi estruturar e validar uma engenharia de dados robusta capaz de ensinar Modelos de Linguagem Grande (LLMs) a atuarem como corretores pedagógicos sob severas restrições de hardware (VRAM inferior a 4GB).

7.8 Conclusão Laboratório de Testes: Fase 4

Atua como o veredicto técnico da quarta fase da pesquisa, consolidando comparativamente os indicadores de desempenho das seis arquiteturas de rede neural submetidas ao protocolo de Fine-Tuning com o Dataset V13. Esta divisão analisa profundamente a relação entre a escala paramétrica (tamanho) dos modelos e a sua real capacidade de especialização pedagógica operando sob severas restrições de hardware e idioma. A avaliação rigorosa é fundamentada numa tríade de métricas: acurácia de classificação, Erro Médio Absoluto (MAE) e a integridade sintática das saídas em formato JSON/XML.

Fase 5

7.9 Resultados: Laboratório de Testes (Fase 5)

Representa o ápice empírico da pesquisa, transcendendo a avaliação puramente funcional de software para investigar o processo real de inferência num ambiente físico de produção. O foco central desta fase foi mapear o ponto de ruptura exato em que as restrições físicas da arquitetura ARM64 (implementada num Single Board Computer - Raspberry Pi 5) interferem diretamente na integridade do raciocínio simbólico de Modelos de Linguagem Grande (LLMs).

7.9.2 LAB 5.2: Eficiência Arquitetural e Resiliência Lógica

Esta subdivisão consolida os achados da aplicação dos modelos sob o estresse físico descrito anteriormente, revelando reações cognitivas completamente diferentes dependendo da arquitetura da IA sob alta temperatura e restrição de barramento.

7.10 Conclusão Laboratório de Testes: Fase 5

Atua como o veredicto definitivo e o encerramento da fase empírica mais crítica da pesquisa. Esta divisão sintetiza os achados sobre o ponto de ruptura da inferência de Modelos de Linguagem Grande (LLMs) operando localmente em equipamentos de baixo custo (SBCs). O diagnóstico central estabelece que a execução estritamente local de IA na borda transcende as estatísticas algorítmicas tradicionais, configurando-se, na realidade, como um complexo desafio termodinâmico e de alocação de recursos físicos.

Tese de Doutorado | Capítulo 7

Anterior Capítulo 8

Capítulo 7: Análise dos Resultados

Índice do Capítulo

7.1 Resultados: Laboratório de Testes (Fase 1)

7.1.1 LAB 1.0: Processo de Configuração Inicial

Conclusão do LAB 1.0

7.1.2 LAB 1.1: Instalação LLM Local (Open-Source)

Conclusão do LAB 1.1

7.1.3 LAB 1.2: Chatbot local usando Frameworks

Conclusão do LAB 1.2

7.2 Resultados: Laboratório de Testes (Fase 2)

7.2.1 LAB 2.0: Instalação e Configuração do Langflow

7.2.2 LAB 2.1: Projeto Langflow

7.2.3 LAB 2.2: Prompt Básico usando Langflow

Conclusão da Fase 2

7.3 Conclusão Laboratório de Testes: Fase 1 e 2

Reflexões sobre a Fase 1Desempenho e Otimização

Reflexões sobre a Fase 2Orquestração e Integração

7.4 Resultados: Laboratório de Testes (Fase 3)

7.4.1 LAB 3.1: Análise Técnica da Estrutura dos Datasets

Dataset A: Corpus Especialista

Dataset B: Corpus Generalista Bruto

7.4.2 LAB 3.2: Critérios de Aceitação e Métricas por Cenário

Estratégia de Comparação

Cenário A (Corpus Especialista)

Resultado da Análise

Cenário B (Generalista Bruto)

Resultado da Análise

7.5 Conclusão Laboratório de Testes: Fase 3

7.5.1 Cenário A: O Fracasso do Especialista Gramatical

Diagnóstico: Catastrophic Forgetting

7.5.2 Cenário B: O Colapso no Dataset Generalista Bruto

Análise: Envenenamento de Dados

7.6 Conclusão da Fase 3: A Necessidade de Reengenharia

A Refutação da Premissa Inicial

O Diagnóstico do Gargalo Sistêmico

Consequência Direta

A Mudança de Foco: Da Arquitetura para o Dado

O Pivô Metodológico para a Fase 4

7.7 Resultados: Laboratório de Testes (Fase 4)

7.7.1 LAB 4.1: Engenharia de Refinamento

Resultado Iterativo (Dataset V13)

7.7.2 LAB 4.2: Protocolo de Treinamento e Hiperparâmetros

7.7.3 LAB 4.3: Estrutura e Casos de Sucesso Real

Validação Estrutural

7.7.4 LAB 4.4: O Caso Qwen 2.5 e a Estratégia Híbrida

Conclusão da Abordagem Híbrida

7.8 Conclusão Laboratório de Testes: Fase 4

7.8.1 Eficiência Algorítmica versus Escala Paramétrica

7.8.2 A Tríade de Viabilidade

Veredicto de Especialização

7.9 Resultados: Laboratório de Testes (Fase 5)

7.9.1 LAB 5.1: Inferência em SBCs

7.9.2 LAB 5.2: Eficiência Arquitetural e Resiliência Lógica

MISTRAL 7B: Alta Densidade e Evasão Estrutural

PHI-3 (3.8B): O Paradoxo do Alinhamento e Alucinação

QWEN (1.8B): Equilíbrio Arquitetural e Volatilidade

LLAMA 3 (8B): Validação de Escala e Rigor Cognitivo

Conclusão Empírica da Termodinâmica na IA

7.10 Conclusão Laboratório de Testes: Fase 5

7.10.1 O Veredicto Arquitetural: Fronteiras Físicas

7.10.2 Dicotomia Comportamental sob Estresse

7.10.3 Veredicto Final da Etapa

Perspetivas e Trabalhos Futuros

Reflexões sobre a Fase 1
Desempenho e Otimização

Reflexões sobre a Fase 2
Orquestração e Integração