SkillMark — Valida skills de IA con evidencia

Qué valida

Evidencia, no opiniones

Cada skill se mide contra implementaciones de referencia y se escanea por seguridad. Resultados deterministas y reproducibles.

Benchmarks reproducibles

Corre el skill contra tareas con un estándar de oro, lo evalúa con jueces calibrados y mide su resistencia bajo distintos niveles de contexto. Mismo input, mismo score.

Escaneo de seguridad

Análisis estático sobre 8 categorías del OWASP Agent Security Top 10: acceso a shell, red, credenciales, exfiltración, ejecución dinámica, escalada de privilegios y más.

Scorecard de 5 dimensiones

Fidelidad, eficiencia, determinismo, resiliencia y componibilidad → un score compuesto (0-10) y un nivel de riesgo (L0 seguro a L3 destructivo).

Directorio y leaderboard

2.100+ skills evaluados, descubribles por categoría y ordenables por score. Compara dos skills cara a cara antes de instalar.

Anti-fraude en la evaluación

Bloquea skills que intentan manipular al juez, sobrescribir instrucciones o exfiltrar datos durante la prueba.

Abierto y transparente

Metodología pública, distribución open-source (MIT, PyPI). El "cómo" se explica; los scorecards son verificables.

Cómo funciona

De skill desconocido a certificado

Envías el skill

Apuntas a un repositorio o subes el skill a evaluar.

Escaneo de seguridad

Análisis estático del contenido contra los patrones del OWASP Agent Top 10.

Benchmark

Se ejecuta de forma aislada contra los estándares de oro y se puntúa.

Scorecard público

Score, dimensiones y nivel de riesgo, listos para decidir con evidencia.

Decisiones con evidencia, no con suerte.

Seguridad, estándares y datos

Seguro por diseño

SkillMark es una herramienta global para developers. Su compliance es de seguridad y minimización de datos, alineado a estándares internacionales.

OWASP Agent Security Top 10

El escaneo implementa 8 de las 10 categorías del estándar de seguridad para agentes, asignando un nivel de riesgo por la amenaza de mayor severidad.

Evaluación aislada

El código del usuario no se ejecuta localmente: el escaneo es estático (solo texto) y la evaluación corre vía API, con el prompt del juez endurecido contra inyección.

Manejo de secretos

Cero secretos en el código: todo por variables de entorno y las API keys se almacenan con hash SHA-256. Autenticación con Clerk (RS256).

Minimización de datos

De cada usuario solo guardamos email y su cuota de uso — sin más PII. Los scorecards son públicos; los datos de cuenta son privados y nunca se venden.

Transparencia metodológica

El scoring es determinista y auditable: estándares de oro, prompts de juez y tareas documentadas. Sin cajas negras de opinión.

Alcance global

Herramienta en inglés para la comunidad dev internacional. No procesa datos personales de consumidores chilenos; aplica principios de minimización (estilo GDPR) por diseño.

OWASP Agent Top 10 Evaluación aislada Clerk · RS256 Mínima PII Open-source · MIT Metodología pública

A diferencia de los otros productos del ecosistema, SkillMark no opera bajo la normativa tributaria o de datos chilena: su naturaleza es global y de código abierto, por lo que su compliance se mide contra estándares de seguridad internacionales y la minimización de datos.

El skill que instalaste,
¿es seguro?

Calidad medida,
no opiniones.

Evaluamos
2.100+ skills.

Evidencia, no opiniones

Benchmarks reproducibles

Escaneo de seguridad

Scorecard de 5 dimensiones

Directorio y leaderboard

Anti-fraude en la evaluación

Abierto y transparente

De skill desconocido a certificado

Envías el skill

Escaneo de seguridad

Benchmark

Scorecard público

Seguro por diseño

OWASP Agent Security Top 10

Evaluación aislada

Manejo de secretos

Minimización de datos

Transparencia metodológica

Alcance global

No confíes a ciegas en un skill de IA.