Entrenamos Nuestras Habilidades de IA Como Redes Neuronales. Así Lo Hacemos.
El Problema con las Habilidades Hechas a Mano
Brain Kit incluye 63 habilidades. Cada una es un archivo markdown que le enseña a Claude Code cómo hacer algo específico — escribir copy, debuggear código, auditar seguridad, planear un lanzamiento.
Hasta la semana pasada, cada habilidad era artesanal. Escribíamos las instrucciones, las probábamos contra tareas reales, notábamos las fallas, editábamos la habilidad, probábamos de nuevo. Funcionaba. Pero tenía tres problemas:
1. No escala. 63 habilidades × iteración manual = cuello de botella permanente.
2. No es reproducible. "Le hice ajustes al skill de copywriting y se sintió mejor" no es ingeniería. Son vibras.
3. Se estanca. Después de 3-4 rondas de edición manual, dejas de encontrar mejoras — no porque la habilidad sea óptima, sino porque agotaste tu intuición.
Necesitábamos una forma sistemática de mejorar habilidades. No adivinando. No haciendo A/B testing de copy. Algo más cercano a cómo entrenas un modelo.
Microsoft Publicó la Respuesta
En junio de 2026, Microsoft Research publicó SkillOpt — un framework que trata los documentos de habilidades como artefactos entrenables. El insight central es engañosamente simple:
Un documento de habilidad es para un LLM lo que los pesos son para una red neuronal.
No cambias el modelo. Cambias las instrucciones. Y puedes optimizar esas instrucciones usando los mismos principios que hacen funcionar al deep learning — épocas, learning rates, descenso de gradiente, puertas de validación.
Los resultados en sus benchmarks: +23.5 puntos de precisión en GPT-5.5. Mejor o empatado en las 52 configuraciones evaluadas. Y las habilidades optimizadas se transfieren entre modelos sin reentrenamiento.
Esa última parte es lo que nos llamó la atención. Corremos una arquitectura tri-cerebro — Claude diseña, Codex ejecuta, Gemini valida. Si las habilidades optimizadas se transfieren entre modelos, solo necesitamos entrenar una vez.
Cómo Funciona SkillOpt (La Versión de 30 Segundos)
El loop de entrenamiento tiene seis etapas que se repiten a través de pasos y épocas:
1. Rollout — El LLM objetivo ejecuta un lote de tareas usando la habilidad actual.
2. Reflect — Un LLM optimizador analiza las fallas. No individualmente — en minibatches de 8, buscando patrones sistémicos.
3. Aggregate — Múltiples parches de reflexión se fusionan via llamadas jerárquicas al LLM. 16 parches → 4 → 1.
4. Select — Los edits se ranquean por importancia. Solo los top N sobreviven (N = learning rate, típicamente 4).
5. Update — Los edits sobrevivientes se aplican al documento de habilidad. Cuatro operaciones: append, insert_after, replace, delete.
6. Gate — Correr tareas de validación con la nueva habilidad. Si los scores mejoran, aceptar. Si no, rechazar y mantener la versión anterior.
En los límites de época, dos mecanismos extra se activan: un slow update que compara el rendimiento de inicio vs fin de época (previniendo el olvido), y un meta skill que destila "qué estrategias de optimización funcionaron esta época" como memoria para la siguiente.
¿El resultado? Un archivo markdown compacto — 300 a 2,000 tokens — que corre contra modelos sin cambios y sin costo adicional de inferencia.
La Analogía con Deep Learning
Esto no es una metáfora. Es un mapeo estructural directo:
| Deep Learning | SkillOpt |
|---|---|
| Pesos del modelo | Documento de habilidad (markdown) |
| Forward pass | Rollout (ejecutar tareas con habilidad) |
| Función de pérdida | Evaluador de tareas (calificar outputs) |
| Backpropagation | Reflect (analizar fallas) |
| Gradientes | Parches de edición |
| Gradient clipping | Select (limitar edits al presupuesto) |
| Learning rate | Máximo de edits por paso |
| Paso de SGD | Aplicar parches a la habilidad |
| Conjunto de validación | Gate (aceptar solo si el score mejora) |
| Momentum | Slow update (límite de época) |
| Meta-learning | Meta skill (memoria cross-época) |
El learning rate incluso tiene schedulers — cosine decay, linear decay, constante, o autónomo (dejar al optimizador decidir). Las mismas formas que estabilizan el entrenamiento de redes neuronales estabilizan la optimización de texto.
Lo Que Estamos Construyendo
Estamos adaptando SkillOpt para Brain Kit. Las piezas encajan limpiamente:
Nuestros 63 archivos SKILL.md son los pesos. Cada uno ya tiene tareas de evaluación (rúbricas con criterios de pasa/falla y puntuación de crédito parcial).
Nuestra arquitectura tri-cerebro se mapea a los roles de SkillOpt: Claude como el optimizador (reflexiona sobre fallas, propone edits), Codex como el objetivo (ejecuta tareas con la habilidad), Gemini como el evaluador (califica el output contra la rúbrica).
Nuestros workflows de n8n manejan la orquestación — disparando rollouts, recolectando scores, manejando checkpoints.
El MVP es simple: elegir una habilidad, correrla contra 10 tareas de evaluación, calificar los outputs, reflexionar sobre las fallas, proponer ≤4 edits, validar, aceptar o rechazar. Un loop toma unos 30 minutos. Empezamos con la habilidad de copywriting.
El pipeline completo correrá las 63 habilidades a través de 3 épocas de optimización, con cosine learning rate decay, slow updates, y meta skill memory. Checkpoints versionados en cada paso. Un leaderboard rastreando los scores de las habilidades a lo largo del tiempo.
Por Qué Esto Importa
Cada usuario de Brain Kit recibe las mismas 63 habilidades. Si podemos mejorar sistemáticamente cada una aunque sea 10-15%, eso se compone a través de cada tarea, cada usuario, cada día.
Pero la ventaja real es la defensibilidad. Las habilidades hechas a mano se pueden copiar. La infraestructura de entrenamiento no. Una vez que tengamos el pipeline de optimización corriendo, cada iteración amplía la brecha entre nuestras habilidades y cualquiera que intente replicarlas a mano.
Microsoft probó que las habilidades optimizadas se transfieren entre modelos. Eso significa que las habilidades que entrenamos en Claude también funcionan mejor en Codex y Gemini — sin reentrenamiento. Una inversión, tres modelos mejorados.
Y porque el output es solo markdown — sin fine-tuning de modelos, sin costos de GPU, sin overhead de inferencia — el costo marginal de optimización es cercano a cero. Estamos entrenando texto, no parámetros.
La era de los prompts hechos a mano está terminando. De la misma forma que las features ajustadas a mano perdieron ante las representaciones aprendidas en visión computacional, las habilidades escritas a mano perderán ante las optimizadas. Preferimos estar del lado correcto de esa curva.
Brain Kit ya le da a Claude Code un segundo cerebro. Ahora ese cerebro está aprendiendo a pensar mejor por sí solo.