Cinco dimensiones de robustez
Marcos científicos estándar en IA y en finanzas. Cada dimensión aporta una métrica y un subscore (0–100).
Robustez / Estabilidad
Cómo se comporta el modelo o la estrategia ante ruido, perturbaciones y condiciones no vistas. Mide si el rendimiento aguanta fuera del laboratorio.
Calibración
Si las probabilidades o confianzas que produce reflejan la realidad observada (p. ej. ECE, Brier). Un modelo "seguro pero equivocado" se detecta aquí.
Equidad / Sesgo
Diferencias de comportamiento entre grupos sensibles (p. ej. demographic parity gap, equalized-odds gap). Menor brecha, mejor.
Generalización / Sobreajuste
Distancia entre el rendimiento en entrenamiento y en datos no vistos (train vs holdout / walk-forward). Penaliza el overfitting.
Deriva temporal
Estabilidad del rendimiento a lo largo del tiempo y ante cambios de régimen. Señala riesgo de degradación futura.
Reproducibilidad
Mismo input, mismo veredicto. Documentamos supuestos y procedimiento para que un tercero pueda repetir el análisis.
Cómo se interpreta el score
Combinamos los subscores en un score global 0–100 (Model Trust Score / Robustness Score). No es una nota de "bueno/malo" absoluta: es una medida relativa de cuánta evidencia respalda confiar en el sistema para el uso declarado.
- 80–100 — Evidencia sólida de robustez para el uso declarado. Riesgos menores y monitorizables.
- 60–79 — Apto con restricciones: funciona, pero con puntos a vigilar o corregir antes de escalar.
- 40–59 — Señales de riesgo relevantes (sobreajuste, mala calibración o sesgo) que conviene resolver.
- 0–39 — Evidencia insuficiente o riesgos altos para el uso propuesto.
Los umbrales se contextualizan según el caso de uso y su criticidad; un mismo score pesa distinto en crédito o biometría que en una tarea de bajo impacto.
READY · REVISAR · NO CONFORME
Junto al score emitimos un veredicto claro, pensado para que un comité o un inversor decida sin interpretar números.
Datos para la validación
- Definición de la tarea y del uso previsto (qué decide el modelo o la estrategia y con qué impacto).
- El modelo o sus predicciones/scores sobre un conjunto de prueba — o, en trading, el histórico de operaciones/equity.
- Un conjunto de validación / holdout representativo (idealmente no usado en entrenamiento).
- Si aplica equidad: la variable de grupo sensible, anonimizada.
- Todo anonimizado y bajo NDA. No necesitamos datos personales en claro.
Límites del informe
El informe es evidencia técnica de apoyo, no una certificación legal. CoreSyn no es organismo notificado y no garantiza conformidad regulatoria ni resultados futuros.
Los resultados dependen de los datos aportados y reflejan el periodo y el alcance acordados; un cambio de datos, de mercado o de uso puede alterar las conclusiones.
Salvo que se acuerde en el alcance, no auditamos infraestructura, seguridad ni cumplimiento documental. El método interno es propietario; lo que entregamos —métricas, supuestos y resultados— es documentado y revisable.