Cómo validamos

Metodología

Qué medimos, cómo se lee el resultado y qué necesitamos de ti. El motor interno es propietario, pero las métricas, supuestos y resultados entregados son documentados y revisables.

Ver un informe de muestra (PDF)
Qué medimos

Cinco dimensiones de robustez

Marcos científicos estándar en IA y en finanzas. Cada dimensión aporta una métrica y un subscore (0–100).

Robustez / Estabilidad

Cómo se comporta el modelo o la estrategia ante ruido, perturbaciones y condiciones no vistas. Mide si el rendimiento aguanta fuera del laboratorio.

Calibración

Si las probabilidades o confianzas que produce reflejan la realidad observada (p. ej. ECE, Brier). Un modelo "seguro pero equivocado" se detecta aquí.

Equidad / Sesgo

Diferencias de comportamiento entre grupos sensibles (p. ej. demographic parity gap, equalized-odds gap). Menor brecha, mejor.

Generalización / Sobreajuste

Distancia entre el rendimiento en entrenamiento y en datos no vistos (train vs holdout / walk-forward). Penaliza el overfitting.

Deriva temporal

Estabilidad del rendimiento a lo largo del tiempo y ante cambios de régimen. Señala riesgo de degradación futura.

Reproducibilidad

Mismo input, mismo veredicto. Documentamos supuestos y procedimiento para que un tercero pueda repetir el análisis.

El número

Cómo se interpreta el score

Combinamos los subscores en un score global 0–100 (Model Trust Score / Robustness Score). No es una nota de "bueno/malo" absoluta: es una medida relativa de cuánta evidencia respalda confiar en el sistema para el uso declarado.

  • 80–100 — Evidencia sólida de robustez para el uso declarado. Riesgos menores y monitorizables.
  • 60–79 — Apto con restricciones: funciona, pero con puntos a vigilar o corregir antes de escalar.
  • 40–59 — Señales de riesgo relevantes (sobreajuste, mala calibración o sesgo) que conviene resolver.
  • 0–39 — Evidencia insuficiente o riesgos altos para el uso propuesto.

Los umbrales se contextualizan según el caso de uso y su criticidad; un mismo score pesa distinto en crédito o biometría que en una tarea de bajo impacto.

El veredicto

READY · REVISAR · NO CONFORME

Junto al score emitimos un veredicto claro, pensado para que un comité o un inversor decida sin interpretar números.

READYRobusto para el uso declarado. Recomendación de monitorización rutinaria.
REVISARApto con condiciones: hay riesgos concretos a corregir o vigilar antes de confiar plenamente.
NO CONFORMELa evidencia no respalda el uso propuesto; recomendamos cambios sustanciales o no desplegar.
Qué necesitamos

Datos para la validación

  • Definición de la tarea y del uso previsto (qué decide el modelo o la estrategia y con qué impacto).
  • El modelo o sus predicciones/scores sobre un conjunto de prueba — o, en trading, el histórico de operaciones/equity.
  • Un conjunto de validación / holdout representativo (idealmente no usado en entrenamiento).
  • Si aplica equidad: la variable de grupo sensible, anonimizada.
  • Todo anonimizado y bajo NDA. No necesitamos datos personales en claro.
Honestidad

Límites del informe

El informe es evidencia técnica de apoyo, no una certificación legal. CoreSyn no es organismo notificado y no garantiza conformidad regulatoria ni resultados futuros.

Los resultados dependen de los datos aportados y reflejan el periodo y el alcance acordados; un cambio de datos, de mercado o de uso puede alterar las conclusiones.

Salvo que se acuerde en el alcance, no auditamos infraestructura, seguridad ni cumplimiento documental. El método interno es propietario; lo que entregamos —métricas, supuestos y resultados— es documentado y revisable.

Solicitar evaluación inicial