Meu CEO de IA Trabalha Enquanto Eu Durmo
Na terca-feira passada as 2h da manha, enquanto eu dormia, minha factory de agentes de IA fez deploy de uma correcao de bug, rodou a suite de testes, commitou as mudancas com uma mensagem descritiva e me enviou uma notificacao pelo Telegram. Quando acordei, a correcao estava em producao.
Isso nao e hipotetico. Isso e Factory OS — meu sistema de orquestracao de agentes de IA personalizado construido sobre Claude Code. Veja como funciona e o que ele realmente pode fazer.
O Que e Factory OS
Factory OS e um sistema de 15 papeis de agentes de IA especializados, coordenados por um agente CEO/orchestrator. Cada papel tem:
- Um arquivo de prompt com conhecimento de dominio, regras e restricoes
- Uma atribuicao de modelo (qual LLM usar para este papel)
- Limites de permissao (o que o agente pode e nao pode fazer)
- Quality gates (verificacoes que devem passar antes do trabalho ser aceito)
Os agentes rodam em sessoes do Claude Code. O agente CEO le descricoes de tarefas, divide em subtarefas, gera agentes especialistas, revisa o output e gerencia o pipeline.
Os 15 Papeis
| Papel | O Que Faz | Modelo |
|---|---|---|
| CEO/Orchestrator | Delega tarefas, revisa output, gerencia pipeline | Claude Sonnet |
| Builder | Escreve codigo de aplicacao (Rails, Astro, Next.js) | Claude Opus |
| QA Tester | Testes no nivel do navegador via Chrome DevTools MCP | Claude Sonnet |
| DevOps | Deploy, infraestrutura, gerenciamento de servidores | Claude Sonnet |
| Product Researcher | Analise de mercado, pesquisa competitiva, analise JTBD | Claude Sonnet |
| SEO Specialist | Otimizacao de conteudo, pesquisa de keywords, SEO tecnico | Claude Sonnet |
| Landing Builder | Landing pages com copy focado em conversao | Claude Sonnet |
| CTO | Decisoes de arquitetura, planejamento de tech stack | Claude Opus |
| Senior Ruby | Desenvolvimento Rails com regras de codificacao estritas | Claude Opus |
| Content Writer | Posts de blog, documentacao, copy de marketing | Claude Sonnet |
| Data Analyst | Interpretacao de analytics, analise de funil | Claude Sonnet |
| Designer | Decisoes de UI/UX, design de componentes | Claude Sonnet |
| Security Auditor | Code review para vulnerabilidades | Claude Sonnet |
| Performance Engineer | Otimizacao, cache, load testing | Claude Sonnet |
| Transcriber | Extracao de audio e speech-to-text | Claude Sonnet |
As Regras Que Fazem Funcionar
Regra 1: O CEO Nunca Escreve Codigo
Esta e a regra mais importante. O agente CEO delega tudo. Nunca abre um arquivo e edita. Nunca roda testes diretamente. Gera um agente Builder ou QA para isso.
Por que? Porque quando um unico agente faz tudo, perde contexto, comete erros desleixados e produz codigo inconsistente. Especializacao cria responsabilidade.
Regra 2: Todo Agente Le as Regras Primeiro
Antes de fazer qualquer trabalho, cada agente gerado le:
- O preambulo universal do agente (regras compartilhadas)
- Seu arquivo de prompt especifico do papel
- O CLAUDE.md do projeto (notas de arquitetura, convencoes, arquivos chave)
Isso nao e negociavel. Mesmo que o agente “ja conheca” o codebase, ele le as regras. Porque apos a compactacao de contexto (quando a conversa fica muito longa), o agente esquece tudo. As regras sao a memoria persistente.
Regra 3: Quality Gates Antes do Commit
Nenhum codigo e commitado sem passar:
- Smoke test (
ruby bin/rails runner test/smoke_test.rb) - Verificacao de consistencia (sem imports quebrados, sem arquivos orfaos)
- Atualizacao de documentacao (CLAUDE.md se mantém atualizado)
- Plano de rollback (podemos desfazer isso com seguranca?)
Se algum gate falhar, o agente corrige o problema e re-executa. Nao pula gates.
Regra 4: Limites de Permissao Estritos
O Builder nao pode fazer deploy em producao. O DevOps nao pode modificar logica de aplicacao. O QA Tester nao pode alterar codigo fonte. Cada agente opera dentro do seu limite.
Isso previne o modo de falha mais perigoso: um agente “ajudando” fazendo algo fora da sua expertise.
CLAUDE.md: O Sistema Operacional
Todo projeto tem um arquivo CLAUDE.md na raiz. Isso nao e documentacao — e o sistema operacional para os agentes que trabalham naquele projeto.
O CLAUDE.md do AICPO tem mais de 500 linhas. Contem:
- Visao geral de arquitetura (framework, banco de dados, hosting)
- Modelo de dados com todas as tabelas e colunas
- Endpoints de API com formatos de request/response
- Mapa de service objects (o que cada servico faz)
- Diagramas de pipeline (fluxo de dados pelo sistema)
- Lista de arquivos chave (para que os agentes saibam onde procurar)
- Comandos de dev (como rodar o servidor, testes, migracoes)
- Release gate (checklist obrigatorio antes de cada commit)
Quando um novo agente e gerado e le o CLAUDE.md, ele entende o projeto inteiro em segundos. Sem onboarding. Sem “pode me explicar o codebase?” So le o arquivo e comeca a trabalhar.
Um Exemplo Real
Isso e o que aconteceu ontem. Eu queria adicionar exportacao PDF ao sistema de artefatos do AICPO.
- Disse ao CEO: “Adicione exportacao PDF para artefatos. Link publico, sem login necessario, pronto para impressao.”
- O CEO criou um detalhamento de tarefas:
- Banco de dados: tabela
artifact_pdf_linkscom token, document_id, snapshot de conteudo - Model:
ArtifactPdfLinkcom token auto-gerado - Controller: Rota publica
GET /pdf/:token, sem autenticacao - Layout: HTML minimo pronto para impressao (escuro na tela, P&B limpo na impressao)
- API: Endpoints CRUD para criar e gerenciar links
- Banco de dados: tabela
- O CEO gerou um agente Builder com a tabela de tarefas, criterios de aceitacao e referencias de arquivos chave.
- O Builder escreveu a migracao, model, controller, views e endpoints de API. Depois rodou o smoke test.
- Testes passaram. O Builder commitou com mensagem descritiva.
- Revisei o diff, aprovei e fiz deploy.
Tempo total: 25 minutos. Esforco manual total: ler o diff e aprovar.
O Que Agentes de IA Nao Conseguem Fazer
Nao vou fingir que isso e magia. Aqui esta onde os agentes ainda tem dificuldade:
Decisoes de produto. Agentes podem pesquisar, analisar e apresentar opcoes. Mas “devemos construir essa feature?” e um julgamento humano. O agente CEO delega, nao estrategiza.
Design visual. Agentes podem implementar um design system e seguir padroes. Mas criar uma identidade visual original requer gosto humano. Eu especifico a estetica, os agentes implementam.
Arquitetura inovadora. Para padroes bem conhecidos (CRUD, API, auth), agentes sao excelentes. Para arquitetura genuinamente inovadora, precisam de orientacao significativa. Sao melhores executando padroes conhecidos do que inventando novos.
Debugar problemas de producao. Agentes podem ler logs e sugerir correcoes. Mas debug real de producao requer entender comportamento do usuario, estado da infraestrutura e contexto de negocio que os agentes nao tem.
Saber quando parar. Agentes vao continuar “melhorando” codigo pra sempre se voce deixar. Gold-plating e o modo padrao deles. Voce precisa de criterios de aceitacao explicitos e condicoes de parada.
A Economia
Claude Code custa aproximadamente $75/M de tokens de output para Opus. Uma feature tipica que levaria a um dev humano 4-8 horas custa cerca de $5-15 em tokens.
Compare com o tempo de um dev a $50-150/hora. Mesmo no extremo alto dos custos de tokens, agentes de IA sao 10-30x mais baratos que devs humanos para trabalho de implementacao.
O detalhe: voce ainda precisa de um humano para direcao de produto, decisoes de design e revisao de qualidade. Agentes de IA sao amplificadores, nao substitutos.
O Que Estou Construindo Depois
O proprio Factory OS esta evoluindo. Prioridades atuais:
- Melhor gestao de contexto. Sessoes longas degradam a qualidade. Estou experimentando com arquivos de memoria estruturados que sobrevivem a compactacao de contexto.
- Execucao paralela de agentes. Atualmente os agentes rodam sequencialmente. Rodar Builder + QA em paralelo poderia cortar o tempo de ciclo pela metade.
- Prompts que se auto-melhoram. Agentes que analisam seus proprios erros e melhoram seus arquivos de prompt automaticamente.
O futuro nao sao equipes de engenharia de 100 pessoas. Sao makers solos com factories de agentes de IA, lancando produtos que antes precisavam de empresas inteiras.
Se quiser acompanhar, assine a newsletter. Compartilho o que funciona, o que quebra e o que aprendo.