Fuente: Snyk, estudio ToxicSkills sobre skills de agentes (2026).
Qué valida
Cada skill se mide contra implementaciones de referencia y se escanea por seguridad. Resultados deterministas y reproducibles.
Corre el skill contra tareas con un estándar de oro, lo evalúa con jueces calibrados y mide su resistencia bajo distintos niveles de contexto. Mismo input, mismo score.
Análisis estático sobre 8 categorías del OWASP Agent Security Top 10: acceso a shell, red, credenciales, exfiltración, ejecución dinámica, escalada de privilegios y más.
Fidelidad, eficiencia, determinismo, resiliencia y componibilidad → un score compuesto (0-10) y un nivel de riesgo (L0 seguro a L3 destructivo).
2.100+ skills evaluados, descubribles por categoría y ordenables por score. Compara dos skills cara a cara antes de instalar.
Bloquea skills que intentan manipular al juez, sobrescribir instrucciones o exfiltrar datos durante la prueba.
Metodología pública, distribución open-source (MIT, PyPI). El "cómo" se explica; los scorecards son verificables.
Cómo funciona
Apuntas a un repositorio o subes el skill a evaluar.
Análisis estático del contenido contra los patrones del OWASP Agent Top 10.
Se ejecuta de forma aislada contra los estándares de oro y se puntúa.
Score, dimensiones y nivel de riesgo, listos para decidir con evidencia.
Decisiones con evidencia, no con suerte.
Seguridad, estándares y datos
SkillMark es una herramienta global para developers. Su compliance es de seguridad y minimización de datos, alineado a estándares internacionales.
El escaneo implementa 8 de las 10 categorías del estándar de seguridad para agentes, asignando un nivel de riesgo por la amenaza de mayor severidad.
El código del usuario no se ejecuta localmente: el escaneo es estático (solo texto) y la evaluación corre vía API, con el prompt del juez endurecido contra inyección.
Cero secretos en el código: todo por variables de entorno y las API keys se almacenan con hash SHA-256. Autenticación con Clerk (RS256).
De cada usuario solo guardamos email y su cuota de uso — sin más PII. Los scorecards son públicos; los datos de cuenta son privados y nunca se venden.
El scoring es determinista y auditable: estándares de oro, prompts de juez y tareas documentadas. Sin cajas negras de opinión.
Herramienta en inglés para la comunidad dev internacional. No procesa datos personales de consumidores chilenos; aplica principios de minimización (estilo GDPR) por diseño.
A diferencia de los otros productos del ecosistema, SkillMark no opera bajo la normativa tributaria o de datos chilena: su naturaleza es global y de código abierto, por lo que su compliance se mide contra estándares de seguridad internacionales y la minimización de datos.
Valida con evidencia antes de llevarlo a producción — benchmarks y escaneo de seguridad.
Validar un skill