如何教计算机阅读

sakib60 · Post by **sakib60** » Sun Jan 26, 2025 8:58 am

读到这篇博客的标题时，你可能会想：“我们为什么要让计算机阅读？”答案是，尽管国家档案馆的发现目录非常庞大，但还有更多的信息！计算机可以帮助我们揭示这些以前隐藏的信息。

计算机阅读机器人图像

以PROB 11为例，这是坎特伯雷特权法院的大量注册遗嘱副本。这些遗嘱的日期范围从 1384 年到 1858 年，包含大量有关地点、受益人、家庭、关系、财产、宗教、价值观和土地的信息，仅举几例。虽然一份遗嘱可以包含多个人的信 RCS 数据柬埔寨息，但目录描述仅显示立遗嘱人、地点和日期，其余信息难以搜索。2,000 卷每卷都有数千页，添加额外信息对于志愿者来说是一项艰巨的任务，他们要么提取更复杂的数据，要么转录文件。在这种情况下，我们真的需要一些帮助。

将从 PROB 11 集合
PROB 11 收藏中的一份遗嘱示例，与其目录描述进行比较

最近，我完成了国家档案馆的早期职业奖学金项目，这是国家档案馆之友慷慨赞助的第一个奖学金项目。该职位属于数字研究团队的一部分，协助他们当前的一个研究项目，即使用机器学习转录 PROB 11。主题相当广泛，研究了众包方式与手写文本识别软件 Transkribus 的流程相结合。