SkillMark · Valida tus skills de IA

El skill que instalaste,
¿es seguro?

Instalas skills con permisos totales de tu agente, sin saber si esconden código malicioso o prompt injection. SkillMark las escanea por seguridad (OWASP) antes de que confíes.

Calidad medida,
no opiniones.

Olvida las reviews subjetivas y los "vibes". SkillMark mide cada skill contra estándares de oro con jueces calibrados: mismo input, mismo score. Reproducible y determinista.

Evaluamos
2.100+ skills.

Un directorio público con scorecards y leaderboards: descubre las mejores, evita las riesgosas y compara cara a cara antes de instalar.

36.8%
de skills con fallas de seguridad
2.100+
skills evaluados
OWASP
Agent Security Top 10

Fuente: Snyk, estudio ToxicSkills sobre skills de agentes (2026).

Qué valida

Evidencia, no opiniones

Cada skill se mide contra implementaciones de referencia y se escanea por seguridad. Resultados deterministas y reproducibles.

Benchmarks reproducibles

Corre el skill contra tareas con un estándar de oro, lo evalúa con jueces calibrados y mide su resistencia bajo distintos niveles de contexto. Mismo input, mismo score.

Escaneo de seguridad

Análisis estático sobre 8 categorías del OWASP Agent Security Top 10: acceso a shell, red, credenciales, exfiltración, ejecución dinámica, escalada de privilegios y más.

Scorecard de 5 dimensiones

Fidelidad, eficiencia, determinismo, resiliencia y componibilidad → un score compuesto (0-10) y un nivel de riesgo (L0 seguro a L3 destructivo).

Directorio y leaderboard

2.100+ skills evaluados, descubribles por categoría y ordenables por score. Compara dos skills cara a cara antes de instalar.

Anti-fraude en la evaluación

Bloquea skills que intentan manipular al juez, sobrescribir instrucciones o exfiltrar datos durante la prueba.

Abierto y transparente

Metodología pública, distribución open-source (MIT, PyPI). El "cómo" se explica; los scorecards son verificables.

Cómo funciona

De skill desconocido a certificado

1

Envías el skill

Apuntas a un repositorio o subes el skill a evaluar.

2

Escaneo de seguridad

Análisis estático del contenido contra los patrones del OWASP Agent Top 10.

3

Benchmark

Se ejecuta de forma aislada contra los estándares de oro y se puntúa.

4

Scorecard público

Score, dimensiones y nivel de riesgo, listos para decidir con evidencia.

Decisiones con evidencia, no con suerte.

Seguridad, estándares y datos

Seguro por diseño

SkillMark es una herramienta global para developers. Su compliance es de seguridad y minimización de datos, alineado a estándares internacionales.

OWASP Agent Security Top 10

El escaneo implementa 8 de las 10 categorías del estándar de seguridad para agentes, asignando un nivel de riesgo por la amenaza de mayor severidad.

Evaluación aislada

El código del usuario no se ejecuta localmente: el escaneo es estático (solo texto) y la evaluación corre vía API, con el prompt del juez endurecido contra inyección.

Manejo de secretos

Cero secretos en el código: todo por variables de entorno y las API keys se almacenan con hash SHA-256. Autenticación con Clerk (RS256).

Minimización de datos

De cada usuario solo guardamos email y su cuota de uso — sin más PII. Los scorecards son públicos; los datos de cuenta son privados y nunca se venden.

Transparencia metodológica

El scoring es determinista y auditable: estándares de oro, prompts de juez y tareas documentadas. Sin cajas negras de opinión.

Alcance global

Herramienta en inglés para la comunidad dev internacional. No procesa datos personales de consumidores chilenos; aplica principios de minimización (estilo GDPR) por diseño.

OWASP Agent Top 10 Evaluación aislada Clerk · RS256 Mínima PII Open-source · MIT Metodología pública

A diferencia de los otros productos del ecosistema, SkillMark no opera bajo la normativa tributaria o de datos chilena: su naturaleza es global y de código abierto, por lo que su compliance se mide contra estándares de seguridad internacionales y la minimización de datos.

No confíes a ciegas en un skill de IA.

Valida con evidencia antes de llevarlo a producción — benchmarks y escaneo de seguridad.

Validar un skill