读到这篇博客的标题时,你可能会想:“我们为什么要让计算机阅读?”答案是,尽管国家档案馆的发现目录非常庞大,但还有更多的信息!计算机可以帮助我们揭示这些以前隐藏的信息。
计算机阅读机器人图像
以PROB 11为例,这是坎特伯雷特权法院的大量注册遗嘱副本。这些遗嘱的日期范围从 1384 年到 1858 年,包含大量有关地点、受益人、家庭、关系、财产、宗教、价值观和土地的信息,仅举几例。虽然一份遗嘱可以包含多个人的信 RCS 数据柬埔寨 息,但目录描述仅显示立遗嘱人、地点和日期,其余信息难以搜索。2,000 卷每卷都有数千页,添加额外信息对于志愿者来说是一项艰巨的任务,他们要么提取更复杂的数据,要么转录文件。在这种情况下,我们真的需要一些帮助。
将从 PROB 11 集合
PROB 11 收藏中的一份遗嘱示例,与其目录描述进行比较
最近,我完成了国家档案馆的早期职业奖学金项目,这是国家档案馆之友慷慨赞助的第一个奖学金项目。该职位属于数字研究团队的一部分,协助他们当前的一个研究项目,即使用机器学习转录 PROB 11。主题相当广泛,研究了众包方式与手写文本识别软件 Transkribus 的流程相结合。