Preservar tus datos de investigación

{% include toc.html %}

La cuestión de fondo

En su ensayo de 2003, "Scarcity or Abundance?", Roy Rosenzweig trató de alertar a los historiadores contra lo que llamó "la fragilidad de las pruebas en la era digital" (Rosenzweig, 736). Y aunque sus preocupaciones se centraron en los recursos disponibles en la web abierta, fácilmente pueden extenderse a los materiales de origen digital -o datos- que los historiadores crean a lo largo de su investigación.

Esta guía se va a dedicar a la preservación de los datos de investigación. ¿Por qué es esto necesario?

Los historiadores usan las computadoras cada vez más como medios predeterminados para almacenar todos sus datos de investigación. Desde hace algún tiempo, sus manuscritos se han convertido en objetos digitales y en consecuencia su investigación ha cambiado -ya sea como notas, fotografías de archivos o tablas de datos. Además, tener los datos de investigación en formato digital tiene una clara ventaja sobre sus antecedentes físicos: pueden ser navegables y buscables, alojados de manera que puedan ser accesibles en muchos lugares y fusionados o consultados con otros datos de investigación.

Pero el hecho de poner todos los datos de investigación en formato digital no garantiza su supervivencia. Y cuando digo sobrevivir no me refiero a su permanencia en un sentido literal o en el sentido de ser capaz de permanecer legible en la próxima versión de Microsoft Word; sino más bien en el sentido de que un archivo pueda ser utilizado por la gente. Los apectos prácticos de cómo conservar los datos de investigación para el futuro es un problema cuya solución ha sido abordada en detalle con y sin los historiadores en mente. Asimismo, los expertos en gestión de datos, servicios y similares han hablado al igual acerca de las mejores prácticas académicas en lo que respecta a la documentación, estructuración y organización de los datos de investigación. A pesar de todo esto, los datos de investigación generados por un historiador individual están en riesgo de perderse si ese historiador no es capaz de generarlos y preservarlos en una forma en que los pueda entender, así como encontrarlos significativos años o décadas más tarde, por no hablar de cualquier otra persona vadeando a través de las idiosincrasias de su proceso de investigación. En resumen, hay un riesgo de pérdida de los datos cuando se separan de su contexto de creación y del conocimiento tácito de que fueron útiles para la preparación de la conferencia X o el manuscrito Y. Como dijo William Stafford Noble:

El principio guía básico es simple: alguien no familiarizado con tu proyecto debe ser capaz de ver los archivos de tu computadora y entender en detalle qué es lo que hiciste y por qué [...]. Pero por lo común resulta que ese "alguien" eres tú. En unos meses a partir de ahora, podrás no recordar lo que estabas haciendo cuando creaste un conjunto de archivos en particular, o podrás olvidar qué conclusiones esbozaste. Tendrás entonces que pasar tiempo reconstruyendo tus experimentos anteriores y percepciones adquiridas a partir de esos experimentos.

William Stafford Noble (2009) A Quick Guide to Organizing Computational Biology Projects. PLoSComputBiol 5(7): e1000424. doi:10.1371/journal.pcbi.1000424

Teniendo en cuenta las lecciones y la experiencia de los expertos en datos de investigación, esta guía te sugerirá formas en las que los historiadores pueden documentar y estructurar sus datos de investigación con el fin de asegurar que permanecerán útiles en el futuro. La guía no pretende ser prescriptiva pues se espera que los lectores repitan, cambien y adapten las ideas que se presentan de acuerdo con sus investigaciones.


Documentar los datos de investigación

Birkwood, Katie (girlinthe). “Victory is mine: while ago I worked out some Clever Stuff ™ in Excel. And I MADE NOTES ON IT. And those notes ENABLED ME TO DO IT AGAIN.” 7 October 2013, 3:46 a.m.. Tweet.

https://twitter.com/Girlinthe/status/387166944094199809

El propósito de documentar es capturar el proceso de creación de datos, los cambios hechos a los datos y el conocimiento tácito asociado con los datos. Las metodologías de gestión de proyectos, como PRINCE2, pone un gran énfasis en una documentación precisa, estructurada y detallada. Mientras que este enfoque beneficia especialmente a proyectos grandes y complejos, con múltiples asociados, el historiador promedio probablemente pueda beneficiarse de un enfoque más flexible y que se nutra, pero no se ate, a los principios de la gestión de proyectos. En el caso de la investigación histórica, el tipo de documentación que podría producirse para preservar la utilidad de los datos de investigación incluye:

Como sugiere el último ejemplo, uno de los propósitos principales de la documentación es describir los vínculos significativos que existen entre los datos de la investigación, vínculos que pueden dejar de ser evidentes con el tiempo.

El momento de documentar depende en gran medida de la persona y del ritmo de la investigación. La regla general es adquirir un hábito de escritura y actualizar la documentación a intervalos regulares, idealmente cada vez que se termina un lote de trabajo por la mañana, la tarde o día. Al mismo tiempo es importante no preocuparse por la perfección sino aspirar a escribir documentación consistente y eficiente que será útil para ti y es de esperarse también que para otras personas puedan utilizar tus datos de investigación años después de realizados.


Formatos de archivo

Idealmente, los datos de investigación y la documentación deben ser guardados en archivos independientes de plataforma como .txt para notas y .csv (valores separados por comas) o .tsv (valores separados por tabuladores) para los datos en tablas. Estos formatos de texto plano son preferibles a los formatos propietarios utilizados por defecto por Microsoft Office o iWork porque pueden abrirse con muchos paquetes de programas y tienen una gran probabilidad de permanecer visibles o editables en el futuro. Muchas suites de ofimática (o paquetes de software para oficina) incluyen la opción de guardar archivos en formatos .txt, .csv y .tsv, lo que significa que se puede continuar trabajando con programas familiares y aún así tomar las acciones apropiadas para hacer accesible tu trabajo. Comparados con .doc o .xls, estos formatos tienen el beneficio adicional, desde una perspectiva de preservación, de contener solamente elementos legibles por la computadora. Mientras que es una práctica común el uso de negritas, itálicas o colores para indicar encabezados o para establecer una conexión visual entre elementos de los datos, estas anotaciones orientadas a la visualización no son legibles por la computadora y, por lo tanto, no puede ser consultadas ni buscadas, ni son adecuadas para grandes cantidades de información. Son preferibles los esquemas simples de anotación como el uso de un doble asterisco o tres signos de almohadilla para representar una característica de los datos; en mis propias notas, por ejemplo, tres signos de interrogación indica algo a lo que necesito dar seguimiento, y lo elegí porque "???" se puede encontrar fácilmente con una búsqueda mediante CTRL + F.

Es probable que en muchas ocasiones estos esquemas de anotación se desprendan de la práctica individual (y en consecuencia deban ser documentados), aunque hay sintaxis disponibles como Markdown (los archivos Markdown se guardan como .md). En GitHub https://github.com/adam-p/markdown-here se pueden encontrar estos excelentes apuntes para quien quiera seguir -o adaptar- esta sintaxis. Se recomienda el uso de Notepad++ http://notepad-plus-plus.org/ a los usuarios de Windows, aunque de ninguna manera es esencial para trabajar con archivos .md. Los usuarios de Mac o Unix pueden encontrar útil Komodo Edit o Text Wrangler.

Resumen 1

Recapitulando, los puntos clave acerca de la documentación y los formatos de archivo son:


Estructuración de los datos de investigación

Documentar tu investigación se torna más fácil estructurando los datos de investigación de una manera consistente y predecible.

¿Por qué?

La respuesta es que cada vez que usamos una biblioteca o un catálogo de archivo dependemos de la información estructurada para ayudarnos a navegar por los datos (tanto físicos como digitales) que contiene el repositorio. Sin esta información estructurada, nuestra investigación sería muy pobre.

Examinar los URLs es una buena forma de pensar una estructura de datos de investigación, consistente y predecible, que puede ser útil para tu investigación. Las URL malas no son reproducibles y, por tanto, en un contexto académico no son citables. Por el contrario, las buenas URL representan con claridad el contenido de la página que identifican, ya sea porque contienen elementos semánticos o porque utilizan un elemento único encontrado en un conjunto o en la mayoría de las páginas.

Un buen ejemplo de los primeros son los URLs utilizados por los sitios web de noticias o los servicios de blogging. Los URLs de WordPress utilizan el siguiente formato:

Un estilo similar es utilizado por las agencias de noticias como el periódico The Guardian:

En los catálogos de archivo, se suelen utilizar URLs estructurados por un elemento de datos. The British Cartoon Archive estructura su archivo en línea utilizando el formato:

Y el sitio Old Bailey Online usa este formato:

Lo que aprendemos de estos ejemplos es que la combinación de descripciones semánticas con elementos de datos hacen consistente y predecible la lectura de los datos estructurados tanto por máquinas como por seres humanos. Transferir esto a los datos digitales acumulados durante el curso de la investigación histórica hace que los datos de investigación sean más fácilmente navegables, así como buscar y consultar utilizando las herramientas estándar provistas por nuestros sistemas operativos (y, como veremos en próximas lecciones, por herramientas más avanzadas).

En la práctica, la estructura de un buen archivo de datos de investigación puede verse como sigue (para los usuarios de OS X y Linux, reemplaza las barras invertidas por diagonales).

Un directorio raíz o base quizá llamado 'trabajo'.

\trabajo\

Una serie de subdirectorios.

\trabajo\eventos\
        \investigacion\
        \docencia\
        \escritos\

Dentro de estos directorios habrá una serie de subdirectorios para cada evento, proyecto de investigación, módulo o escrito. La introducción de una nomenclatura convencional que incluya elementos de fecha permite tener la información organizada sin la necesidad de organizar los subdirectorios, digamos, por año o mes.

\trabajo\investigacion\2014-01_articulos_revistas
              		    \2014-02_Infraestructura

Por último, se pueden utilizar más subdirectorios para separar la información a la vez que crece el proyecto.

\trabajo\investigación\2014_articulos_revista\analisis
                                             \datos
                                             \notas

Por supuesto, no toda la información encajará perfectamente en una estructura predeterminada y, a medida que surjan nuevos proyectos, tendrán que revisarse las taxonomías. De cualquier manera, el sistema resulta correcto siempre y cuando la estructura global del directorio sea consistente y predecible. No será así cuando el historiador no encuentre claramente el documento. Por ejemplo, el subdirectorio 'escritos' de la estructura anterior podría incluir un archivo .txt que indique lo que contiene (borradores, la versión final del trabajo) y lo que no contiene (investigación relativa a lo escrito).

Debe tenerse presente que el nombre de este archivo de texto, así como los de toda la documentación y datos de investigación, debería servir para identificar el mismo archivo y su contenido. "Notas sobre esta carpeta.docx" no es un nombre que cumpla con este propósito, mientras que "2014-01-31\escritura\leeme.txt" reproduce el título del directorio e introduce alguna información de fecha. Un archivo 'leeme' que hice para un proyecto reciente, contiene el tipo de información que tú y otros usuarios de tus datos pueden encontrar útil.

Para confirmar el valor de este enfoque quizá valga la pena explicar una breve experiencia personal. Durante el curso de un proyecto de investigación anterior, recolecté unas 2.000 imágenes digitales de grabados satíricos sobre Georgia de una serie de recursos en línea, conservando los nombres de los archivos en el momento de la descarga. Si en un primer momento yo hubiese establecido una convención para nombrar estos archivos (por ejemplo, 'AÑO DE PUBLICACIÓN\NOMBRE DEL ARTISTA\TÍTULO DEL TRABAJO\FORMATO') hoy yo sería capaz de buscar y consultar estas imágenes. De hecho, comenzar cada nombre de archivo con alguna versión para indicar la fecha (YYYYMMDD) habría significado poder organizarlas de manera cronológica en Window, OS X o Linux. Y de haber retirado todos los espacios o signos de puntuación (salvo guiones, puntos, o guiones bajos) de los nombres de los archivos, podría haberlos hecho consistentes y predecibles. Esta sencilla medida habría hecho posible la gestión de esos archivos mediante la interfaz de línea de comandos. Pero no lo hice y, tal y como están ahora, yo tendría que perder mucho tiempo en modificar cada nombre de archivo individualmente a fin de que los datos puedan utilizarse de esta forma.

La aplicación de estas convenciones de nombre a todos los datos de investigación de manera consistente y predecible ayuda a la legibilidad y comprensión de la estructura de datos. Por ejemplo, para un proyecto sobre artículos de revistas pueden elegir el directorio:

\trabajo\investigación\2014-01_articulos_revistas\

En el ejemplo mostrado, los elementos de fecha 'año-mes' indican cúando se inició el proyecto.

Dentro de este directorio se puede incluir un directorio de \datos\ para guardar los datos originales utilizados en el proyecto.

2014-01-31_articulos_revistas.tsv

Junto con estos datos habrá una documentación que describa el archivo 2014-01-31_articulos_revistas.tsv

2014-01-31_articulos_revistas_notas.txt

Subiendo un nivel de directorio a \2014-01_articulos_revistas\ creamos un directorio \analisis\ en el cual colocamos:

2014-02-02_articulos_revistas_analisis.txt
2014-02-15_articulos_revistas_analisis.txt

Observa los diferentes atributos de fechas. Estos reflejan el momento en que se hizo el análisis de datos que se describirá brevemente de manera convencional en:

2014-02-02\_articulos\_revistas\_analisis\_leeme.txt.

Finalmente, podemos crear un directorio dentro de la carpeta \datos\ que contenga los datos derivados de 2014-01-31_articulos_revistas.tsv, que llamaremos \datos_derivados\. En este caso, cada archivo .tsv derivado contiene líneas que incluyen palabras clave como 'africa', 'america', 'arte', etcétera, y se nombran de acuerdo a ello [Nota del traductor: las palabras clave se escriben a propósito sin acentos para facilitar la estructura de datos en los directorios y su búsqueda independiente de plataforma].

2014-01-31_articulos_revista_KW_africa.tsv

2014-01-31_articulos_revista__KW_america.tsv

2014-02-01_articulos_revista__KW_arte.tsv

2014-02-02_articulos_revista__KW_bretaña.tsv

Resumen 2

Recapitulando, los puntos clave sobre la creación de una estructura de datos de investigación son:


Esta lección ha sugerido maneras para documentar y estructurar datos de investigación. El objetivo ha sido asegurar que tus datos se conserven mediante la captura del conocimiento tácito adquirido en tu proceso de investigación y, por lo tanto, haciendo dicha información asequible y fácil de utilizar en el futuro. Se ha recomendado el uso de formatos independientes de plataforma y legibles por computadoras. También se han analizado las URLs como un ejemplo de buenas (y malas) prácticas de estructuración de datos que se puede replicar para organizar los datos de investigación de un historiador.

Estas sugerencias son solamente guías pues se espera que los investigadores las adapten para satisfacer sus propias necesidades. Al hacerlo, se recomienda que cada investigador mantenga sus estrategias de conservación digital, pero que tenga en mente las mejores prácticas de gestión de proyectos. De esta manera, nos aseguramos que el tiempo que pasamos en documentar y estructurar los datos de investigación no sea un lastre. Después de todo, el propósito de esta guía es hacer eficiente la investigación histórica que genera datos. Es decir: tu investigación.


Lecturas recomendadas

Ashton, Neil, 'Seven deadly sins of data publication', School of Data blog (17 October 2013) http://schoolofdata.org/2013/10/17/seven-deadly-sins-of-data-publication/

Hitchcock, Tim, 'Judging a book by its URLs', Historyonics blog (3 January 2014) http://historyonics.blogspot.co.uk/2014/01/judging-book-by-its-url.html

Howard, Sharon, 'Unclean, unclean! What historians can do about sharing our messy research data', Early Modern Notes blog (18 May 2013) http://earlymodernnotes.wordpress.com/2013/05/18/unclean-unclean-what-historians-can-do-about-sharing-our-messy-research-data/

Noble, William Stafford, A Quick Guide to Organizing Computational Biology Projects.PLoSComputBiol 5(7): e1000424 (2009) https://doi.org/10.1371/journal.pcbi.1000424

Oxford University Computing Services, 'Sudamih Project. Research Information Management: Organising Humanities Material' (2011) https://doi.org/10.5281/zenodo.28329

Pennock, Maureen, 'The Twelve Principles of Digital Preservation (and a cartridge in a repository…)', British Library Collection Care blog (3 September 2013) http://britishlibrary.typepad.co.uk/collectioncare/2013/09/the-twelve-principles-of-digital-preservation.html

Pritchard, Adam, 'Markdown Cheatsheet' (2013) https://github.com/adam-p/markdown-here

Rosenzweig, Roy, 'Scarcity or Abundance? Preserving the Past in a Digital Era', The American Historical Review 108:3 (2003), 735-762.

UK Data Archive, 'Documenting your Data' http://data-archive.ac.uk/create-manage/document