Page 1 of 1

目录作为数据:破解纸张

Posted: Mon Feb 03, 2025 5:48 am
by sakib60
不久前,我发表了几篇博客,探讨了如何使用我们目录中的数据来做一些基本但有用的数字历史。如果您感兴趣的记录在我们的目录中有详细的条目,这种方法非常有效,但如果您的“数据”仍然采用装订索引或日历的形式,则效果不佳。要获取通常被称为查找工具的隐藏的惊人信息,必须“破解纸张”。

大数据?-专利日历
大数据?——专利日历

为了看看这有多容易,我决定尝试使用国家档案馆最重要的纸质检索工具之一——专利卷日历。这些是指公元 66 年保存的专利卷,这是一个令人惊叹的文件集合,记录了专利证书、授权和其他皇家行政方面的事项。事实上,公共 RCS 数据奥地利 档案办公室在 20 世纪初制作的日历远远不止是一份索引:它们提供了卷上所有条目的综合列表以及内容摘要。它是如此完整,以至于现在几乎所有历史学家都只是参考日历来代替原始文件。

日历包含大量“数据”,但这些数据被困在页面内,因此我决定看看能否以可用的形式提取这些数据。为了开始这个过程,我拍摄了专利卷日历(爱德华三世,第 14 卷,1367-70 年)的一卷的一些质量不错的图像,并在它们上运行了一些光学字符识别 (OCR) 软件。我使用了Transkribus平台内置的 ABBYY FineReader 软件,但还有许多其他选项可用。最初的结果好坏参半——部分原因是原始印刷品质量不佳——但经过一番尝试,我设法从软件中得到了一些可行的东西。我导出了转录并开始试验结果。