Evaluador de Riesgo de Identificación

¿Qué es? Una herramienta que le ayuda a evaluar si la combinación de datos en un documento puede revelar información sensible o permitir que un tercero identifique al titular. Diseñada para funcionarios, oficiales de protección de datos y responsables de tratamiento.

¿Cuándo usarla? Antes de publicar cualquier documento accesible por terceros: sentencias y providencias en sistemas de consulta pública, documentos de archivo, respuestas a derechos de petición, bases de datos compartidas entre entidades, informes con datos de personas.

¿Cómo usarla? En el Paso 1, defina quién podría intentar identificar al titular. En el Paso 2, marque los datos que permanecerán visibles después de anonimizar nombre y cédula. El Paso 3 muestra la plausibilidad. Si supera el 40% (Moderado), revise los hallazgos y aplique las técnicas sugeridas. Después de anonimizar, use el botón "Reiniciar evaluación" y repita para verificar que la plausibilidad descendió.

¿Qué significan los porcentajes? (plausibilidad, no probabilidad) Los porcentajes representan plausibilidad: una estimación cualitativa de qué tan posible es que un tercero identifique al titular. No son probabilidades estadísticas — una probabilidad requiere un modelo calibrado con datos reales y validación empírica. La plausibilidad se basa en evidencia indirecta de investigaciones publicadas: Sweeney (2002): 87% identificable con 3 variables; Lermen et al. (2026): 68% recall con 90% precisión; De Montjoye et al. (2013): 95% identificable con 4 puntos GPS. La OECD (2025) documenta que al menos el 64% de 47 LLMs analizados fueron entrenados usando datos de Common Crawl (Baack, 2024, citado en OECD, 2025), y que los datos observados del comportamiento digital se recolectan y reutilizan para IA sin conocimiento del titular.

¿Cómo se calcula? Suma ponderada de: variables del documento (7 pts c/u, tope 45) + datos digitales (10 pts c/u, tope 45) + contexto geográfico (rural +15, pequeño +10) + combinaciones potenciadoras (GPS, cookies, grupos) + cascada de inferencias sensibles. Se multiplica por la capacidad del tercero (×0.7 a ×1.5).

Escala de plausibilidad:
0-19% Insignificante - No se requiere anonimización adicional.
20-39% Bajo - No divulgue variables innecesarias.
40-59% Moderado - Se recomienda anonimizar al menos una variable.
60-79% Alto - Se requiere anonimización. Aplique técnicas sugeridas.
80-99% Crítico - Anonimización obligatoria. Identificación cuasi-directa.

Ejemplo práctico: Una persona responsable de publicar un documento ya anonimizó nombre y cédula. El documento aún contiene: mujer, 35 años, docente, municipio de Silvia, estrato 2, subsidiado. Selecciona estas 6 variables → plausibilidad 65% (Alta) con perfil de periodista. Hallazgos sensibles: pertenencia étnica probable, afiliación sindical, salud reproductiva. Técnica sugerida: generalizar Silvia → Cauca, suprimir ocupación. Resultado: plausibilidad baja a 25% (Bajo).

Importante: Herramienta orientativa y pedagógica. No reemplaza una Evaluación de Impacto en la Protección de Datos ni el criterio jurídico del responsable del tratamiento. No procesa datos personales reales. No usa IA generativa ni APIs externas. Toda la lógica funciona localmente en su navegador.

Paso 1

¿Quién podría intentar identificar al titular?

Seleccione el perfil. Esto afecta toda la evaluación.

Paso 2

¿Qué datos contiene su documento?

Marque los datos que permanecerán visibles después de anonimizar nombre y número de identificación.

Datos del titular en el documento

Datos del entorno digital

Solo si el documento se consulta en un portal web o sistema digital.

Paso 3

Resultado

Plausibilidad de identificación del titular

Insignif.

0-19%

Bajo

20-39%

Moderado

40-59%

Alto

60-79%

Crítico

80-99%

Variables

Hallazgos

Sensibles

⚠️ Riesgo narrativo: Si el documento contiene texto que contextualice estos datos, la plausibilidad real puede ser mayor.

⏳ Riesgo temporal: La publicación futura de nuevos registros puede incrementar la plausibilidad.