Cómo censurar documentos y por qué es importante hacerlo
December 13, 2024 | 10 minutes read
Habrá un momento en que necesite compartir documentos, ya sea por motivos profesionales o personales, y ese puede ser el momento en que se dé cuenta de que “probablemente debería eliminar parte de esta información antes de enviar esto”. Eres más que consciente de que la información sensible en manos de la persona equivocada puede dar lugar a robos de identidad, actividades delictivas y muchos problemas de seguridad. Por este motivo, la redacción de documentos es un método muy recomendable para que particulares y pequeñas y grandes organizaciones protejan sus datos importantes y confidenciales.
Por qué redactar documentos
La redacción de documentos es la tarea de eliminar información confidencial sin obstaculizar su contenido. No es de extrañar que la redacción de documentos sea una práctica muy extendida y solicitada. Las pruebas de la redacción de documentos se remontan al siglo XIII, cuando se produjo el palimpsesto, práctica consistente en sustituir el texto cuando escaseaban los pergaminos, de un manuscrito del siglo X. Aunque hoy existiera, usted mismo lo habría descubierto. Aunque hoy no existiera, tú mismo lo habrías descubierto. Es como cuando pasas apuntes en clase y te das cuenta de que has compartido demasiado, tachas esa parte para asegurarte de que es ilegible, ¿verdad? Acabas de redactar una información sensible.
Por supuesto, a una escala mucho más consecuente, hay graves repercusiones si no redactas los datos sensibles correctamente. Tomemos, por ejemplo, el error de redacción de documentos que ocurrió con Paul Manafort y su equipo legal en 2019. Aunque el documento mostrado públicamente parecía redactado, estaba mal redactado.
Por ejemplo, resalte la siguiente frase con el ratón y podrá ver que aunque parezca redactada, la información sensible está disponible para que cualquiera la vea. La simple capa de “redacción” que se aplica no basta para proteger los datos.
Historia clínica – Paciente: John Smith Fecha de nacimiento: 03/01/1950.
La gente podía utilizar herramientas de visualización de documentos para ver lo que había debajo de la barra negra que tapaba la información sensible. Ni que decir tiene que se dieron cuenta de su error de redacción demasiado tarde, lo que causó revuelo en la prensa. Resalte la siguiente frase para verla
Existen leyes y reglamentos, como la Ley de Libertad de Información, que consideran necesario redactar y establecen pasos y procedimientos específicos que deben seguirse. Uno de los más recientes que circulan por los medios de comunicación procede de la legislatura del estado de Arizona. Los estatutos revisados de Arizona con respecto a las solicitudes de registros públicos tienen legislación pendiente que incluye requisitos específicos que el gobierno debe seguir al cumplir con una solicitud de registros públicos.
A partir del 27 de febrero de 2023, la legislación pendiente incluye el proyecto de ley 2808 de la Cámara de Representantes que indica un gran cambio y enmienda a la ya existente Ley de Registros Públicos de Arizona. Ahora se puede requerir obligar a (o negar con una categorización de las razones de la negación enumeradas) las solicitudes de registros públicos dentro de los 5 días de la solicitud antes de enfrentarse potencialmente a una multa civil de hasta $ 5000.
El proceso de redacción de documentos
Si ha utilizado antes una herramienta de redacción manual de documentos, es más que probable que sepa cómo utilizar la función de redacción manual de casi todas las herramientas de redacción de documentos que existen. La gracia salvadora de la redacción de documentos es su capacidad de IA. Algunos programas de redacción le ofrecen la opción de seleccionar una función de redacción automática por IA para que ésta recorra todo el documento y localice toda la información de identificación personal (IIP) que hay que redactar. Para el usuario final, es sólo pulsar un botón, pero ¿te has preguntado alguna vez cómo es capaz de leer y saber que las palabras resaltadas son realmente IIP?
Para empezar a redactar
Para empezar, es importante entender que no todos los documentos que necesitan ser censurados estarán automáticamente listos para la búsqueda de texto. Si recibe cientos de páginas escaneadas que contienen PII, no podrá “ctrl F” y buscar la palabra que tenga delante. La máquina ve la PII escaneada como una imagen, no como texto. Para solucionarlo, primero hay que aplicar el OCR a los documentos.
OCR
El reconocimiento óptico de caracteres, conocido como OCR, es el proceso de convertir textos escaneados en algo legible por máquina. Es un descendiente del optófono, una máquina de principios del siglo XX que funcionaba para ayudar a los ciegos a leer mediante el uso de diferentes tonos basados en los espacios oscuros y claros detectados en el papel.
El programa de OCR actual va carácter por carácter para asegurarse de que se detecta y reconoce correctamente y transforma la información escrita en la imagen escaneada en texto utilizando un método similar. Tiene que “preprocesar” o limpiar la imagen del texto, realineando las letras, cambiando su tamaño y eliminando las marcas innecesarias, para poder intentar “leer” las letras. Esta transformación suele ser posible mediante distintos tipos de algoritmos, dos de los cuales son el reconocimiento de patrones y la extracción de características.
Con el reconocimiento de patrones, el método consiste en examinar cada carácter individual y compararlo con la biblioteca de caracteres que ya tiene almacenada. De este modo, cuando termina de buscar entre las muchas fuentes y tamaños de cada letra y encuentra una coincidencia, puede etiquetar adecuadamente.
Los métodos de extracción de características dependen de las líneas específicas, la dirección y la interacción entre esas líneas para concluir cuál podría ser el carácter. Las máquinas también son capaces de hacer OCR de documentos escritos a mano, lo que es casi tan impresionante como que un farmacéutico pueda leer la letra de su médico para recetarle una receta. Las máquinas preprocesan los textos manuscritos utilizando diferentes modelos, como un modelo de secuencia llamado modelo de Markov oculto.
Una vez hecha la limpieza, el siguiente paso es obtener el mayor número de detalles posible. A veces se dividen las palabras para que la máquina escanee pequeñas porciones en distintas direcciones y sea lo más específica posible al extraer los detalles. Este proceso, conocido como red neuronal recurrente multidimensional, se repite para basarse en sus hallazgos anteriores y, en última instancia, obtener un resultado basado en múltiples capas de información.
Una vez reunidas las capas de información para detectar el texto durante el proceso de redacción del documento, se pasa a una Clasificación Temporal Conexionista, un algoritmo centrado en concluir su resultado basándose en el espaciado, la posición y la probabilidad para concluir de qué letra se trata. Por último, el texto se extrae y se puede buscar, con lo que finaliza el proceso de reconocimiento de texto. Esto es impresionante, sobre todo si se tiene en cuenta que puede hacerse con escritos en varios idiomas.
Identificación de PII
Por supuesto, no siempre es necesario hacer un “OCR” del documento; si ya es legible, el proceso de redacción comenzará con la búsqueda y detección de la IIP por parte del programa.
En lo que respecta al reconocimiento de la IIP, existen múltiples técnicas y algoritmos que pueden utilizarse para realizar el trabajo, como la concordancia basada en reglas, el aprendizaje automático y el procesamiento del lenguaje natural. El algoritmo basado en reglas se explica por sí mismo, ya que utiliza un conjunto de reglas preseleccionadas basadas en patrones para indicar si se trata de un PII. Por ejemplo, no podemos adivinar qué puede representar “123456789”, pero si está escrito como “123-45-6789”, podemos predecir que se trata de un número de la seguridad social.
Este método puede ser preciso, pero el alcance de la IPI que puede identificar se limita a IPI específicas. También significa que es menos probable que identifique algo como IPI si está escrito incorrectamente, lo que es probable que ocurra, por lo que será mejor utilizar este método junto con una técnica de aprendizaje automático.
Hay un patrón cuando se trata de software que utiliza aprendizaje automático, y es que el rendimiento es un resultado sin desviaciones de cómo se entrenó la parte de aprendizaje automático. Para que el software pueda hacer algo, especialmente parecido a un ser humano, tiene que ser entrenado con una gran cantidad de datos y a través de una potente canalización. La técnica de aprendizaje automático puede incluir conjuntos de datos etiquetados para que pueda seguir ejemplos específicos de los que aprender o puede utilizar algoritmos de agrupación para autoaprendizaje. Sea cual sea el método, permitirá reconocer un mayor número de IPI, independientemente de que estén redactados de manera informal o contengan errores menores, ya que estaría entrenado para ello.
El último método mencionado es el procesamiento del lenguaje natural (PLN), que es otro método avanzado que utiliza el contexto de una frase para anticipar IIP utilizando un modelo lingüístico preentrenado como BERT (Bidirectional Encoder Representations from Transformers). Con este método, puede extraer la IPI simplemente porque el texto anterior a la IPI es “Puede ponerse en contacto conmigo en…”. Al ser capaz de reconocer la PII, pero también de utilizar los textos circundantes para una predicción más precisa, deja poco margen para los falsos positivos, lo que garantiza una detección adecuada de las PII en sus documentos.
Redactar
Ahora que se han detectado todas las IIP, el paso más importante es redactarlas. Redactar documentos significa oscurecer la información hasta hacerla irreconocible, preservando al mismo tiempo el significado de las frases en su totalidad. Esto implica tachar o eliminar determinados textos o frases. Una buena herramienta de redacción es capaz de detectar las palabras que se desea eliminar y borrar la información antes de añadir la capa de color sólido para mostrar el efecto del bloqueo. De este modo, si el bloque de color se elimina de la página, o si algún malintencionado utiliza herramientas para cambiar el sombreado y ver lo que hay detrás, sólo quedaría un espacio en blanco. Ya ha pasado por el proceso de OCR, detección de texto, reconocimiento de texto y, por último, ¡redacción de texto!
Las diferentes funciones de la redacción de documentos
Si bien la automatización de la eliminación de documentos es útil, también existen diferentes funciones que ayudan a mejorar la experiencia de eliminación de documentos. A continuación se enumeran algunas de las funciones más comunes para la eliminación de documentos.
- Eliminación de patrones: Permite que el software de redacción busque patrones específicos, como correos electrónicos, números de teléfono, direcciones, números de la seguridad social y otros. Si utiliza un programa de redacción automatizado, esta función está garantizada.
- Buscar y redactar: Este sencillo concepto supondrá una gran diferencia a la hora de acelerar la redacción. Una vez que haya aplicado todas las redacciones PII, esta opción “Buscar y Redactar” le permitirá buscar cualquier palabra específica, incluso si no es PII, para encontrar y redactar todas las ocurrencias en todo el documento.
- Redacción de plantillas: Si tiene que redactar IIP de formularios, puede que tenga la IIP colocada en la misma parte de cada hoja. Incluso puede ser más rápido crear una plantilla que redacte, por ejemplo, todo lo que aparece en la parte inferior derecha de tus archivos. Una vez creada la plantilla, sólo tienes que seleccionarla para utilizarla en tus futuros documentos y sabrás que redactará sistemáticamente ese lugar preciso de tus documentos.
- Búsqueda por imagen/logotipo: Esta opción de búsqueda por imagen puede recordarnos que las imágenes pueden ser una parte destacada de los documentos. Tener la posibilidad de buscar una imagen o un logotipo exactos en miles de documentos con un solo clic puede ahorrar horas y garantizar el mantenimiento de la privacidad.
- Redacción masiva: Todas estas funciones serían inútiles si tuvieran que utilizarse en un documento cada vez. Con la función “Bulk Redaction”, tiene la posibilidad de utilizar estas funciones combinadas en tantos archivos como necesite.
La redacción de documentos es una parte inevitable y crítica para garantizar la seguridad y confidencialidad de nuestros datos privados. Es importante que los particulares y las empresas den prioridad a la correcta redacción de documentos, no solo para evitar consecuencias negativas, sino para mantener una seguridad adecuada y coherente de aquellos que se verán afectados por posibles amenazas.