Un acercamiento a los metadatos
¿Cómo nos definen los datos?
Todos tenemos datos. Aunque nos guste pensar lo contrario, los datos definen y dirigen el mundo de hoy. No puede conectarse a internet, usar su teléfono móvil o incluso hacer una foto sin acumular datos. Los datos son un conjunto de hechos y pueden ser visibles y conocidos por el usuario o pueden estar ocultos en el fondo. Los datos en segundo plano u ocultos se definen generalmente como metadatos. Los metadatos son datos sobre los datos.
Los datos son una colección de valores, medidas y hechos. Existe gran variedad de datos, como los datos numéricos, las palabras, las medidas, las ubicaciones, las descripciones y muchos más. Los datos, a todos los efectos, son una descripción explícita. Hay cuatro tipos diferentes de datos:
- Datos cualitativos: este tipo de dato contiene descripciones de cosas u objetos.
- Datos cuantitativos: este tipo de dato denota una cantidad y generalmente se expresa numéricamente.
- Datos discretos: se trata de un tipo de campo de datos configurado de manera que sólo puede aceptar un tipo específico de entrada de datos.
- Datos continuos: este tipo de dato tiene un rango de información que es aceptable introducir. Por ejemplo, sólo los valores numéricos entre 1 y 50 o las entradas alfabéticas que empiezan por la A y llegan hasta la C. Hay un rango establecido para los datos.
Los metadatos incluyen las formas de datos anteriores, pero generalmente se utilizan en el contexto de la descripción de otros datos. Los metadatos describen la fuente y la información adicional sobre un dato. Por ejemplo, los metadatos de una imagen pueden contener información sobre quién tomó la foto, la fecha, la hora y la ubicación GPS del lugar donde se tomó. Los metadatos pueden ocultar tanta información descriptiva que constituyen un excelente recurso forense para la resolución de delitos.
Historia de los metadatos
Datos sobre datos. Suena divertido, ¿no? Este concepto existe desde hace mucho tiempo. Ejemplo de ello son los catálogos de tarjetas de las bibliotecas antes del uso de los ordenadores. Piense en los metadatos como información descriptiva de los datos recogidos. Pueden ser una herramienta de gestión y también pueden ayudar a determinar dónde se iniciaron los datos. La cantidad de datos recogidos entre bastidores puede ser muy variada.
Los metadatos, o su concepto, se remontan al año 280 a.C., cuando los pergaminos disponibles en la Gran Biblioteca de Alejandría llevaban pequeñas etiquetas al final. Estas etiquetas, similares a las tarjetas de catálogo de las bibliotecas más modernas, daban información sobre el título, el tema y el autor. Los usuarios podían decidir qué pergamino elegir basándose en la descripción general sin tener que desenrollar los numerosos pergaminos de la biblioteca.
El término metadatos fue acuñado por dos profesores del MIT, Stuart McIntosh y David Griffel. En 1967 en un informe de progreso sobre los datos almacenados en los sistemas informáticos, los investigadores expresaron la necesidad de un “metalenguaje”. Acerca del proceso de almacenamiento de los registros de datos y de la finalidad que tiene la recogida de información expusieron que: “Si se generan muchos tipos diferentes de registros, se hace necesario mantener un registro (metadatos – datos bibliográficos) de los registros de datos.”.
Sin duda, las distintas disciplinas utilizan diferentes normas de metadatos. Los metadatos se generan para cada fuente específica, dependiendo de la fuente o del tipo de archivo. Por ejemplo, un archivo de imagen contiene metadatos sobre la fecha en que se tomó la foto, así como dónde se hizo y la hora del día. Por otra parte, un sitio web puede contener metadatos que proporcionen información sobre el lenguaje de programación utilizado, el autor, la fecha de creación y cualquier imagen o archivo asociado. Los metadatos pueden diseñarse según una norma específica que abarque todas las descripciones necesarias para cualquier tipo de dato, archivo de datos, libros y, como hemos visto, pergaminos antiguos.
Estándares de metadatos
Por supuesto, tarde o temprano alguien insistiría en establecer normas. En 1979 el Consejo Internacional de Telecomunicaciones de Prensa (IPTC) definió las normas de metadatos. El IPTC creó normas para los datos descriptivos que podían insertarse en los archivos de imágenes. A finales de los ochenta, el consejo desarrolló normas y definiciones para los datos que podían adjuntarse a una variedad de archivos, imágenes, texto y archivos multimedia. Esta norma se conoció como Modelo de Intercambio de Información (IMM).
Los avances en materia de metadatos continuaron a lo largo de los años. Adobe creó sus estándares. Adobe se basó en las definiciones estándar de datos sugeridas por el IPTC, pero creó su propio sistema de cabeceras. Las imágenes TIFF y JPEG siguen utilizando los estándares, las descripciones y las cabeceras del IPTC.
A partir del año 2000 continuó el desarrollo de normas y estándares y los avances en materia de metadatos. La Organización Nacional de Normas de Información (NISO) creó en 2001 sistemas de metadatos para la industria de la información que incluía a bibliotecas, editores y empresas de software. En su guía, Metadata Made Simpler: A Guide for Libraries, utilizaron la siguiente definición para ayudar a explicar los metadatos y los sistemas de descripción de archivos: “Existen varios tipos de metadatos, como los descriptivos, los administrativos y los estructurales. Los metadatos descriptivos describen un recurso con el fin de localizar e identificar. Pueden incluir elementos como el título, el resumen, el autor y las palabras clave. Los metadatos administrativos proporcionan información para ayudar a gestionar un recurso, como cuándo y cómo se creó, el tipo de archivo, quién puede acceder a él y otra información técnica. Los metadatos de gestión de derechos son una forma de metadatos administrativos que tratan los derechos de propiedad intelectual. Los metadatos estructurales indican cómo se unen los objetos compuestos, por ejemplo, cómo se ordenan las páginas para formar capítulos.”.
¿Cómo se aplican los metadatos a la ciencia forense?
En la ciencia forense digital, un examinador informático certificado o un experto forense debe utilizar protocolos o normas específicas durante una investigación. El objetivo principal de la ciencia forense digital es investigar revisando todos los medios o datos informáticos disponibles que se descubren. El objetivo fundamental de un examinador forense digital profesional es localizar pruebas utilizando la incautación, la búsqueda o la recuperación. Dichos profesionales están capacitados para hacerlo manteniendo la “integridad de los datos” de los archivos sospechosos.
El primer paso indicado en las “buenas prácticas” por los expertos forenses digitales es realizar un hash de los archivos o soportes sospechosos. Primero, los expertos obtienen una copia limpia y “desinfectada” de los archivos de datos originales. Esta nueva copia se denomina soporte de pruebas. Una vez realizada esta copia, se lleva a cabo una comparación con los datos originales para determinar si la copia desinfectada coincide exactamente con la fuente de datos original. El hash es: “el proceso de obtener una cadena de datos fija, exclusiva y validada que define la originalidad de una propiedad digital.”. Un hash se completa cuando una colección de datos se ejecuta a través de un comando o función de hash. La información resultante es una definición exclusiva de los datos y equivale a una “huella digital”. La huella digital es lo que los científicos quieren ver, ya que puede contener la siguiente información valiosa sobre el soporte o archivo que se está examinando:
- Fecha: momento de creación de los datos.
- Hora: hora en la que se accedió por última vez a estos datos.
- Modificación: puede mostrar un historial de todas las modificaciones de los datos.
- Borrado: muestra cuándo se eliminaron los datos o se intentó transferirlos.
- Autor: es importante porque muestra quién creó el archivo de datos y todas las personas que lo han modificado o afectado.
- GPS: puede indicar dónde se crearon los datos y dónde se encontraba el individuo al alterar los datos.
Software de metadatos
Los datos pueden adoptar muchas formas. Los datos pueden estar disponibles en bases de datos, archivos de texto, imágenes, sitios web, correos electrónicos o chat. La lista es posiblemente interminable, pero de ahí surge la necesidad de los metadatos. Cuando los científicos forenses estudian los metadatos, disponen de una variedad de softwares que les ayudan a realizar sus tareas. Los paquetes de software de metadatos para Windows incluyen FTK, Paraben o Metadata Assistant. Los que prefieren las Mac suelen utilizar MacQuisition para realizar búsquedas y otras funciones sobre los metadatos.
Estas aplicaciones de software ofrecen resultados fiables sobre la evidencia. Un forense puede ver, documentar y crear informes sobre el conjunto de datos que se está investigando utilizando dichos programas. Estas aplicaciones pueden realizar un análisis de las pruebas y establecer la huella digital necesaria para la comparación. Cuando los resultados del hash muestran que un archivo o soporte concreto no coincide con el archivo de la huella digital, esta información puede utilizarse para determinar qué archivos deben ser examinados cuidadosamente para su modificación o análisis posterior.
Los metadatos forenses se utilizan para probar casos, resolver crímenes y ayudar en otras investigaciones. Entender el concepto de metadatos es sólo el principio para saber cómo se puede utilizar, gestionar o alterar esa información para resolver un problema. Hemos dedicado nuestro escrito de hoy a explicar qué son y para qué se utilizan los metadatos. En otros artículos abordaremos con más detalle algunos de los usos de los metadatos para la representación legal en los tribunales.