In Codice Ratio es un proyecto de investigación* que busca desarrollar nuevos métodos y herramientas para facilitar el análisis de contenidos de las grandes colecciones de documentos históricos. El objetivo es dotar a los investigadores de las humanidades con instrumentos nuevos para abordar el estudio de datos a partir de acervos extensos de fuentes históricas. El proyecto se centra en las colecciones de los Archivos Secretos Vaticanos, uno de los archivos históricos más extensos e importantes del mundo, que en unos 85 kilómetros de anaqueles concentra más de 600 colecciones de documentos, los más tempranos de los cuales se remontan al siglo VIII.Pero los Archivos Secretos Vaticanos no han sido de mucha utilidad para los estudiosos actuales porque resultan prácticamente inaccesibles.No es que estén cerrados (lo de “secretos” se refiere a “segregados” o “separados”, no escondidos), pero de esos 85 kilómetros de papeles sólo unos cuantos centímetros han sido escaneados y están disponibles en línea, y todavía menos se han transcrito como texto digital en que puedan hacerse búsquedas. Si alguien quiere consultar cualquier otro documento, tiene que solicitar permiso, viajar a Roma y hojear y paleografiar a mano.Con el proyecto actual se busca vencer esas dificultades. In Codice Ratio utiliza una combinación de software de inteligencia artificial y de reconocimiento óptico de caracteres para lograr transcribir los documentos por primera vez. Si se logra, será una magnífica noticia para un número enorme de archivos en todos los países.El sistema de reconocimiento óptico de caracteres se ha utilizado para digitalizar libros y otros documentos impresos, pero no funciona con los materiales de los archivos antiguos. En su versión tradicional, este sistema segmenta las palabras en una serie de imágenes de letras detectando los espacios entre ellas. Luego compara cada imagen de letra con el banco de letras de su memoria. Tras decidir qué letra conviene más a la imagen, el software la traduce al código cibernético (ASCII) y de ese modo deja el texto listo para la búsqueda. Pero este proceso sólo funciona con textos impresos y es un fracaso cuando se trata de manuscritos, que forman la mayor parte de los documentos antiguos del Vaticano, porque cuando las letras están conectadas el software necesita reconocer cada una para segmentarla.Ése es el problema que se está tratando de resolver. Los cuatro científicos a cargo del proyecto han explicado** que están probando una innovación llamada algo así como “segmentación de rompecabezas”, que separa las palabras no en letras, sino en algo más parecido a rasgos de escritura individuales. Para enseñar al software a lograr tal proeza, los investigadores recurrieron a alumnos de escuelas secundarias de Italia, que están alimentando los bancos de memoria del proyecto bajo la supervisión de especialistas en manuscritos antiguos y medievales que se ocupan de desechar falsas lecturas.Hasta el momento, los resultados han ido mejorando a medida que la memoria va siendo alimentada. Este proyecto podría significar para los documentos manuscritos lo que Google logró hacer con los libros.*http://www.inf.uniroma3.it/db/icr/index.html **https://arxiv.org/abs/1803.03200