Cómo anonimizar historiales clínicos para investigación médica según el RGPD

24 de abril de 2026

La investigación médica es una de las actividades donde más claramente se exige anonimizar: los historiales clínicos contienen datos de categoría especial —salud— y el RGPD les aplica el nivel más alto de protección. A la vez, los datos de pacientes son una materia prima esencial para la ciencia. Esta guía explica, paso a paso, cómo anonimizar historiales clínicos para proyectos de investigación cumpliendo el RGPD, la LOPDGDD y la normativa sanitaria estatal y autonómica.

Qué exige la ley cuando se manejan historiales clínicos

El marco normativo aplicable es más denso que en otros sectores porque concurren varias normas:

  • RGPD — art. 9: los datos de salud son categoría especial y requieren una de las excepciones del apartado 2 (consentimiento explícito, interés público en el ámbito de la salud, investigación científica…).
  • LOPDGDD — arts. 6.bis y 9: refuerza la necesidad de evaluación de impacto y medidas de seguridad específicas en tratamientos con datos de salud.
  • Ley 41/2002 reguladora de la autonomía del paciente — fija el contenido mínimo del historial y las condiciones de acceso.
  • Ley 14/2007 de Investigación Biomédica — regula específicamente los proyectos con muestras biológicas y datos clínicos.
  • Normativa autonómica — cada comunidad tiene su propia ley de salud con requisitos adicionales para la cesión de datos.

El denominador común: la anonimización real e irreversible es la puerta de salida del régimen reforzado. Una vez anonimizado, el dato clínico puede usarse para investigación sin consentimiento explícito. Mientras siga siendo personal (seudonimizado o en claro), hace falta base legal específica y medidas técnicas reforzadas.

Qué datos contiene un historial clínico y cuáles hay que eliminar

Un historial clínico estándar contiene muchas más capas de información identificable de las que se suele asumir:

Identificadores directos (obligatorio eliminar):

  • Nombre y apellidos del paciente
  • DNI, NIE, pasaporte, tarjeta sanitaria
  • Número de la Seguridad Social
  • Número de historia clínica
  • Teléfono y email de contacto
  • Dirección postal

Identificadores del entorno asistencial:

  • Nombre del centro (a veces es identificador, p. ej. un hospital de zona pequeña)
  • Nombre del médico o equipo
  • Planta, habitación, cama
  • Fechas exactas de ingreso, alta, consulta

Cuasi-identificadores (obligatorio generalizar):

  • Fecha de nacimiento → sustituir por grupo de edad (quinquenio)
  • Código postal → generalizar a provincia o CCAA
  • Profesión → agrupar por sectores amplios
  • Datos de familiares (si aparecen)

Contenido narrativo:

  • Informes de ingreso, evolución y alta
  • Notas de enfermería
  • Juicio clínico
  • Datos referidos por el paciente (“mi vecina también tuvo esto”)

Es en el contenido narrativo donde fallan los procesos de anonimización simples. Los campos estructurados son fáciles de limpiar; los textos libres requieren procesamiento de lenguaje natural porque contienen nombres, referencias a terceros, ubicaciones y fechas insertadas en prosa.

El riesgo de reidentificación en datos clínicos

La literatura académica ha documentado numerosos casos donde conjuntos de datos supuestamente anónimos pudieron reidentificarse:

  • Un famoso estudio del MIT demostró que con cuatro datos de localización aproximada de un teléfono móvil, el 95% de las personas son únicas en una ciudad media.
  • En sanidad, combinar edad quinquenal, sexo, código postal y una condición rara basta a menudo para identificar a una persona en una comarca de 50.000 habitantes.
  • Los diagnósticos codificados en CIE-10 agrupados con fecha aproximada permiten reidentificación cuando el diagnóstico es inusual.

Por eso la anonimización clínica requiere un enfoque más agresivo que la de otros documentos: no basta con borrar nombres, hay que generalizar cuasi-identificadores y, en ocasiones, eliminar o modificar fechas y diagnósticos raros para que un episodio no sea singularizable.

Anonimiza historiales clínicos para investigación

anonimiza.do detecta identificadores directos y cuasi-directos, elimina metadatos y genera log de auditoría. Diseñado para el marco RGPD español.

Probar gratis

Proceso recomendado de anonimización clínica

  1. Definir el caso de uso — ¿el investigador necesita seguimiento longitudinal? ¿Sólo datos agregados para un estudio transversal? El nivel de anonimización depende del uso previsto.
  2. Clasificar los campos — separa los tres tipos anteriores: identificadores directos, identificadores del entorno y cuasi-identificadores.
  3. Aplicar eliminación total a los identificadores directos. No sustituir por códigos (eso sería seudonimización).
  4. Generalizar los cuasi-identificadores — fecha exacta → mes; edad exacta → quinquenio; código postal → provincia.
  5. Procesar el texto narrativo — usar NLP entrenado en español clínico para detectar nombres, referencias y ubicaciones en los campos libres.
  6. Eliminar metadatos del fichero — autor, fecha de creación, nombre del dispositivo, historial de cambios.
  7. Evaluar el riesgo k-anonimato — para cada combinación de cuasi-identificadores, asegurar que hay al menos k registros iguales (recomendado k≥5 para datos clínicos).
  8. Documentar el procedimiento — fecha, responsable, técnicas aplicadas, resultado del test de reidentificación.

Diferencia con la seudonimización para investigación longitudinal

No siempre se puede anonimizar. Algunos proyectos requieren seguimiento a largo plazo, ligar muestras biológicas con nuevos datos clínicos, o contactar al paciente si aparece un hallazgo clínicamente relevante.

En esos casos, la técnica correcta es la seudonimización con doble clave:

  • El paciente recibe un código aleatorio (ID de estudio).
  • La tabla de correspondencia entre ID de estudio e identidad real se custodia por un responsable independiente (normalmente el CEIm o el departamento de calidad del hospital), nunca por el equipo investigador.
  • El investigador sólo puede solicitar la revinculación a través de un procedimiento formal y justificado.

Este esquema se llama safe haven y es el que exige la Ley de Investigación Biomédica para proyectos con muestras biológicas.

El papel del Comité de Ética de la Investigación con medicamentos (CEIm)

Ningún proyecto de investigación biomédica debería iniciarse sin pasar por el CEIm correspondiente. El comité evalúa:

  • La necesidad del acceso a datos personales frente a la posibilidad de trabajar con anonimizados.
  • La suficiencia de las medidas de anonimización o seudonimización propuestas.
  • El contenido del consentimiento informado (si aplica).
  • Las garantías frente a reidentificación.

Un informe favorable del CEIm es también un factor clave si un día hubiera que defender ante la AEPD la licitud del tratamiento.

Errores que observamos con frecuencia

Error 1 — “Exportamos a Excel y ya está” — los nombres quedan, las fechas exactas también, y los metadatos del fichero delatan qué médico lo generó.

Error 2 — Borrar el nombre pero dejar el DNI — parece obvio, pero ocurre cuando se edita manualmente y la columna se queda oculta pero no eliminada.

Error 3 — Confiar en que “el texto libre no lo lee nadie” — las notas de evolución contienen tantos datos personales como los campos estructurados, y son los que más casos de reidentificación facilitan.

Error 4 — Usar la misma técnica para todos los estudios — un estudio sobre hipertensión no requiere la misma agresividad en la anonimización que uno sobre una enfermedad rara donde una persona puede ser única en toda la comunidad autónoma.

Preguntas frecuentes

¿Hace falta consentimiento del paciente para usar su historial en investigación si se anonimiza?

Una vez el dato está correctamente anonimizado, no hay dato personal, y por tanto no aplica el consentimiento del RGPD. Sin embargo, la Ley de Investigación Biomédica y normativa autonómica exigen, en muchos casos, informar al paciente con antelación sobre el uso secundario de sus datos, aunque sea anonimizado.

¿Puedo compartir historiales anonimizados con investigadores de fuera de la UE?

Sí, una vez anonimizados pueden compartirse sin las restricciones del capítulo V del RGPD. Si son seudonimizados, aplican las reglas de transferencias internacionales (cláusulas contractuales tipo, decisión de adecuación, etc.).

¿Cuánto tarda anonimizar un historial de 50 páginas manualmente?

Entre 2 y 4 horas, y el resultado es inconsistente porque cada operario aplica criterios distintos. Con una herramienta especializada el mismo historial se procesa en segundos y con criterios homogéneos.

¿Los sistemas de historia clínica electrónica (HCE) tienen anonimización integrada?

Algunos ofrecen exportación con borrado de identificadores directos, pero casi ninguno aplica generalización de cuasi-identificadores ni evalúa el riesgo de reidentificación. Para investigación seria hace falta una capa adicional.

Conclusión

Anonimizar historiales clínicos correctamente es la diferencia entre un proyecto de investigación viable y un expediente sancionador. Requiere criterio técnico, herramientas adecuadas y documentación rigurosa. Los hospitales y grupos de investigación que profesionalizan este proceso no sólo cumplen la norma: también aceleran sus proyectos y reducen el tiempo que pasan discutiendo con el DPO y el CEIm.

Si necesitas anonimizar historiales clínicos con garantías, prueba anonimiza.do. La herramienta reconoce identificadores propios del sistema sanitario español (tarjeta sanitaria, número de HC, CIAS) y aplica anonimización con log auditable.

Anonimiza tus documentos sin perder horas

Prueba anonimiza.do gratis — 3 documentos al mes sin tarjeta. Elimina datos personales de contratos, nóminas e informes en segundos, con plena conformidad RGPD.

¡Prueba gratis!