Módulo 3.6 — Skills Auto-iterativas

💡 O conceito de skill auto-iterativa

A maioria das skills é estática: você cria, usa, e ela permanece exatamente como foi criada até que alguém decida melhorá-la manualmente. Uma skill auto-iterativa quebra esse paradigma. Ao final de cada execução, ela coleta feedback sobre seu próprio desempenho — o que funcionou, o que gerou fricção, o que poderia ter sido melhor — e propõe modificações concretas para a próxima versão. Com aprovação humana, essas modificações são aplicadas e a skill evolui. Ao longo de dezenas de execuções, esse ciclo acumula um nível de refinamento que seria impossível alcançar manualmente. A skill aprende com cada uso e se torna progressivamente mais adaptada ao contexto específico onde opera — um ativo inteligente que cresce com você.

🔁 O ciclo de auto-iteração

Execução

Skill roda normalmente

→

Reflexão

Analisa o que funcionou

→

Proposta

Sugere melhorias

→

Aprovação

Humano valida

→

Evolução

Skill V+1 publicada

✓ Skills ideais para auto-iteração

✓Alta frequência de uso (diária/semanal)
✓Output avaliável objetivamente
✓Propósito estável (não muda com frequência)
✓Execuções relativamente uniformes

✗ Skills que NÃO se beneficiam

✗Uso raro (mensal ou menos)
✗Cada execução é radicalmente diferente
✗Output altamente subjetivo
✗Propósito em constante mudança

💡 Dica Prática

Comece com apenas 1 skill auto-iterativa. Escolha a que você usa com mais frequência e cujo output você consegue avaliar claramente. Aprenda o processo com uma skill antes de escalar para muitas. A auto-iteração mal configurada degrada skills rapidamente.

🧠 Bake-in de reflexão

A seção de reflexão embutida é o componente mais importante da skill auto-iterativa. Ela não é uma adição opcional ao final da skill — é uma seção estruturada com perguntas específicas que guiam o agente a analisar a execução de forma consistente e objetiva. A chave é que as perguntas sejam suficientemente específicas para produzir insights acionáveis, mas não tão prescritivas que impeçam a identificação de problemas inesperados. Um bake-in de reflexão bem projetado produz 3 categorias de informação: o que funcionou excepcionalmente (para amplificar), o que criou fricção (para corrigir) e o que estava faltando (para adicionar). Essas informações, acumuladas ao longo de múltiplas execuções, revelam padrões que uma única execução nunca revelaria.

🧠 Estrutura do bake-in de reflexão

A seção de reflexão deve ser adicionada ao final da skill, após o output principal, com estas 4 partes:

1Avaliação de execução: O que funcionou bem nessa execução específica?
2Identificação de fricção: O que tornou essa execução mais difícil do que deveria ser?
3Gaps de cobertura: Houve algo que a skill deveria ter feito mas não fez?
4Proposta de melhoria: Uma mudança concreta que tornaria a próxima execução melhor

📄 Exemplo de seção de reflexão para incluir em qualquer skill

---
## REFLEXÃO AUTOMÁTICA (incluir ao final de cada execução)

Após completar o output principal acima, analise esta execução:

### O que funcionou bem nessa execução?
[Identificar 1-2 aspectos que fluíram naturalmente e produziram
resultados de alta qualidade]

### O que criou fricção ou poderia ser mais eficiente?
[Identificar 1-2 pontos onde a execução foi mais difícil do que
esperado, ou onde o output poderia ter sido melhor com informação adicional]

### Houve algo fora do escopo desta skill que deveria estar incluído?
[Identificar se algum caso de uso relevante não está coberto pelas
instruções atuais]

### Proposta de melhoria para próxima versão:
[Uma mudança específica e concreta nas instruções da skill que tornaria
a próxima execução melhor. Incluir: o que mudar, onde na skill, por quê]

---
*Esta reflexão deve ser apresentada ao usuário para aprovação antes
de qualquer modificação na skill.*

💡 Dica Prática

A reflexão só é útil se for específica. "Funcionou bem" não é um insight. "A fase 2 de coleta de contexto produziu informações suficientes para o output sem precisar de follow-up" é um insight acionável. Treine a skill para ser específica nas reflexões, ou os resultados serão genéricos e inúteis.

⭐ Bake-in de avaliação

A avaliação numérica complementa a reflexão qualitativa adicionando uma dimensão quantitativa que permite rastrear tendências ao longo do tempo. Uma skill com rating médio de 4.2 nas últimas 10 execuções e descendo progressivamente para 3.8 está sinalizando deterioração — e esse sinal é muito mais claro do que qualquer análise qualitativa individual. Para que o sistema funcione, os critérios de avaliação precisam ser objetivos e pré-definidos. Uma avaliação de "5 porque me senti bem com o resultado" é inútil; uma avaliação de "4 porque o contexto coletado foi suficiente mas o format de output precisou de ajuste manual" é um dado que orienta melhorias. O bake-in de avaliação transforma cada execução em um ponto de dados sobre a qualidade da skill.

⭐ Critérios objetivos de rating

5 Output de alta qualidade sem ajustes, contexto suficiente coletado, fluxo sem fricção

4 Output bom com ajuste menor, ou coleta de contexto com uma pergunta de follow-up adicional

3 Output utilizável mas com lacunas notáveis, ou processo que precisou de intervenção manual significativa

2 Output parcialmente correto, exigiu retrabalho substancial ou coleta de contexto insuficiente

1 Output incorreto ou inutilizável, skill falhou no propósito principal nessa execução

💡 Dica Prática

Registre os ratings numa planilha simples com data, skill e rating. Após 10 execuções você terá dados suficientes para identificar tendências. Um rating médio abaixo de 3.5 por 3 execuções consecutivas é sinal de que a skill precisa de atenção imediata.

♻️ O loop de melhoria contínua

O loop de melhoria contínua é o sistema que conecta reflexão, avaliação e evolução da skill num ciclo fechado. A distinção crítica em relação a um processo ad hoc de melhoria é que o loop tem etapas definidas, um papel claro para o humano, e critérios para decidir quando atualizar e quando não atualizar. O humano não está fora do loop — está em um ponto específico do loop (aprovação) que é insubstituível porque adiciona julgamento contextual que o agente não tem. Uma melhoria que parece razoável para o agente pode ser problemática por razões que só o humano conhece. O loop perfeito é aquele em que o agente propõe e o humano decide — nunca o oposto, e nunca o agente decidindo sozinho.

Acúmulo de reflexões

Após 3-5 execuções

Coletar as reflexões das últimas execuções e identificar padrões recorrentes. Uma única reflexão pode ser atípica; um padrão em 3+ reflexões é um sinal real.

Síntese de melhorias

Consolidar os padrões em propostas

Transformar os padrões identificados em propostas de mudança concretas e específicas — não "melhorar a coleta de contexto" mas "adicionar a pergunta X na fase 2".

Revisão humana

O humano decide o que aplicar

Avaliar cada proposta: faz sentido no contexto maior? Há efeitos colaterais não considerados? Aprovar ou rejeitar com justificativa.

Aplicação e validação

Skill V+1 publicada e testada

Aplicar as mudanças aprovadas, publicar a nova versão, e monitorar as próximas 3 execuções para confirmar que as melhorias funcionaram como esperado.

💡 Dica Prática

Defina uma frequência mínima de atualização: a skill deve ser atualizada no máximo 1x por semana, independente de quantas reflexões chegaram. Atualizações muito frequentes criam instabilidade e impossibilitam o aprendizado sobre o impacto de cada mudança.

⚠️ Limites e riscos

Auto-iteração sem guardrails pode destruir uma skill que antes funcionava perfeitamente. Os riscos são reais e específicos. O mais insidioso é o drift de propósito: a skill gradualmente incorpora comportamentos para além do seu propósito original, e depois de 20 iterações é algo completamente diferente do que foi criada para ser. Outro risco é a complexidade crescente: cada iteração adiciona uma instrução, e após 15 iterações a skill tem instruções demais e performance abaixo do que tinha com 5. E há o viés de auto-avaliação: o agente tende a dar ratings altos para execuções que parecem bem-sucedidas superficialmente, mas que na prática produziram outputs que o humano precisou ajustar. Entender esses riscos é o que permite usar auto-iteração com segurança, não evitá-la.

⚠️ Os 4 riscos principais e como mitigar

Drift de propósito

A skill gradualmente expande seu escopo além do propósito original.

Mitigação: Comparar a skill atual com a V1 a cada 10 iterações. Se o propósito central mudou, fazer um reset.

Complexidade crescente

Cada iteração adiciona instruções sem remover as que ficaram obsoletas.

Mitigação: Para cada instrução adicionada, verificar se alguma existente pode ser removida ou simplificada.

Viés de auto-avaliação

O agente dá ratings altos para execuções que pareceram bem mas não foram.

Mitigação: Adicionar uma avaliação humana independente para pelo menos 20% das execuções, como check de calibração.

Loop sem convergência

As melhorias introduzem novos problemas que introduzem novas melhorias num ciclo sem fim.

Mitigação: Se o rating médio não melhorou após 5 iterações consecutivas, parar e fazer uma revisão profunda em vez de continuar iterando.

💡 Dica Prática

Mantenha uma versão "golden" da skill — a melhor versão que você já teve. Se o rating médio cair abaixo da versão golden por 3 execuções consecutivas, reverta para a versão golden e recomeça o loop do zero com uma análise do que deu errado nas iterações anteriores.

🏆 Exemplo de skill com auto-iteração

Para tornar o conceito concreto, a seguir está uma skill completa com todos os componentes de auto-iteração integrados: seção de execução principal, bake-in de reflexão estruturada, sistema de avaliação com critérios objetivos e instruções para o humano sobre como processar as propostas de melhoria. Essa skill pode ser usada diretamente como base para criar suas próprias skills auto-iterativas — substitua o conteúdo do domínio e mantenha a arquitetura de auto-iteração intacta. Após 10 execuções com essa estrutura, você terá uma skill significativamente melhor do que a que você criou originalmente, sem esforço adicional além da revisão das propostas.

🏆 Skill Completa com Auto-iteração: Análise de Decisão

---
name: decision-analysis
description: Use para analisar qualquer decisão importante antes de
  tomá-la. Acione com "analisar decisão", "decision analysis" ou quando
  precisar estruturar uma escolha difícil com múltiplos fatores.
version: 1.0
---
# Análise de Decisão

## Fase 1 — Coleta de Contexto
Antes de analisar, coletar:
1. Qual é a decisão específica a tomar? (descrição em 1 frase)
2. Quais são as opções disponíveis? (listar todas)
3. Quais são os critérios de avaliação mais importantes?
4. Há restrições ou limitações que eliminam certas opções?
5. Qual é o prazo para decidir?

## Fase 2 — Análise Estruturada
Para cada opção, avaliar:
- Prós: benefícios concretos e mensuráveis
- Contras: riscos, custos e limitações
- Reversibilidade: quão fácil é reverter se errar?
- Alinhamento: quanto se alinha com os critérios definidos?

## Fase 3 — Síntese e Recomendação
- Pontuar cada opção nos critérios (1-5 por critério)
- Calcular score total ponderado
- Apresentar recomendação com justificativa de 3-5 pontos
- Identificar o maior risco da recomendação

## Fase 4 — Plano de Execução
Se a decisão for tomada:
- Próximos 3 passos imediatos
- Indicador de sucesso a monitorar em 30 dias

---
## AUTO-ITERAÇÃO — Executar ao final de CADA uso

### Reflexão desta execução:
**O que funcionou bem:**
[Identificar especificamente o que tornou essa análise útil]

**O que criou fricção:**
[Identificar onde o processo foi mais difícil do que deveria]

**O que estava faltando:**
[Algo que teria tornado a análise mais completa ou útil]

**Proposta de melhoria para V.next:**
[Uma mudança específica — onde na skill, o que mudar, por quê]

### Auto-avaliação (1-5):
Rating: __/5
Critério: 5 = análise completa sem lacunas e recomendação clara;
          3 = análise utilizável mas com ajustes necessários;
          1 = análise insuficiente para tomar a decisão

---
## INSTRUÇÕES PARA O HUMANO

Após receber a reflexão e o rating:
1. Se rating >= 4 e proposta de melhoria é incremental → considerar aplicar na próxima versão
2. Se rating <= 3 → investigar o que causou a queda antes de aceitar propostas
3. Se a mesma proposta aparece em 3+ execuções → é um padrão real, priorizar
4. Atualizar no máximo 1x por semana, mesmo com muitas reflexões acumuladas
5. Registrar cada atualização no CHANGELOG com versão e mudança

📈 O que esperar ao longo do tempo

Execuções 1-5: Descoberta de gaps óbvios, melhorias de clareza e completude das instruções

Execuções 6-15: Refinamento de edge cases, ajuste fino do formato de output, calibração da coleta de contexto

Execuções 15+: Melhorias marginais, skill altamente calibrada para o contexto específico de uso

💡 Dica Prática

A maior transformação acontece entre as execuções 5 e 15. Se você não percebe diferença de qualidade até a execução 5, é normal — os efeitos da auto-iteração são cumulativos. Persista pelo menos até a execução 10 antes de avaliar se o sistema está funcionando.

✅ Resumo do Módulo — e da Trilha 3

✓

Skill auto-iterativa — Skills que aprendem com cada execução via reflexão estruturada e avaliação sistemática

✓

Bake-in de reflexão — Seção estruturada ao final da skill com 4 perguntas que geram insights acionáveis

✓

Sistema de avaliação — Rating 1-5 com critérios objetivos para rastrear tendências de qualidade

✓

Loop de melhoria — 4 etapas: acúmulo → síntese → aprovação humana → aplicação e validação

✓

Guardrails de segurança — Drift de propósito, complexidade crescente e viés de auto-avaliação com suas mitigações

✓

Skill completa de exemplo — Template funcional com todos os componentes integrados, pronto para adaptar

🎓 Trilha 3 concluída!

Você completou a Trilha No Expert. Com templates prontos, prompts canhão, sub-agentes de teste, consolidação sistemática, stack lean e auto-iteração integradas, você tem o arsenal completo para construir e manter uma biblioteca de skills de nível profissional que evolui continuamente.

← Módulo Anterior ↑ Voltar para Trilha 3