处理知识图谱的结构化数据

Telemarketing Leads gives you best benifit for you business. Now telemarketing is the best way to promote your business.
Post Reply
Reddi2
Posts: 351
Joined: Sat Dec 28, 2024 3:11 am

处理知识图谱的结构化数据

Post by Reddi2 »

Google 获取有关实体的首要来源是通过为其提供结构化数据的来源。

在这篇文章中我将只处理这种类型的数据源。我将在后续文章中讨论提取非结构化数据和半结构化数据(例如来自维基百科的数据)的更为复杂的方法。

Google 可以使用资源描述框架(简称 RDF)捕获结构化数据。实体是按照对象-谓词-主题模式对不同 RDF 语句的总结。例如,陈述如下 :“堪培拉是澳大利亚的首都。”


这种联系在语法上也可以这样表示。堪培拉是主语,澳大利亚是宾语,(是)首都是谓语。然而,关系类型也可以用动词来描述,例如“托马斯·穆勒效力于拜仁慕尼黑队”。因此,宾语和主语始终是实体。谓词可以是实体类型或类、属性、动词或者它们的组合。

大多数结构化数据库以机器可读的 RDF 格式提供信息 mint 数据库 或允许转换成这种格式。 Google 访问他们信任的数据库,例如 Wikidata、CIA World Factbook……、结构化数据集或翻译数据库,例如 DBpedia 或 YAGO,这些数据库将维基百科信息转换为机器可读的数据。

由于包含结构化数据的数据库和数据集的增长和更新相对较慢,因此谷歌一再鼓励网站管理员在其网站中使用结构化数据也就不足为奇了。谷歌收集和处理的结构化数据越多,他们就越接近能够处理非结构化数据的目标。结构化数据作为机器学习的训练数据。

您可以在我的文章《 为什么结构化数据将来可能会被 Google 淘汰》中阅读有关此内容的更多信息。



什么是实体类型和实体类或域?
在各种 Google 专利中,您可以找到术语“实体类型”和“实体类”或“域”。某些实体类型和域具有相似的一组属性,因此形成一个组。例如,“人”或“人类”这个领域总是可以被分配诸如 出生地、 居住地、 出生日期等属性。这清楚地定义了域和相关的实体类型。

实体类型和域描述一组可以使用相似属性描述的实体。在上面的拉里·佩奇的例子中,实体类型可以是首席执行官或企业家。

在Krisztian Balog 所著的非常好的书 《面向实体的搜索》中,你可以找到以下实体类型的描述:

实体可以分为多种实体类型(简称类型)。类型也可以被认为是将具有相似属性的实体组合在一起的容器(语义类别)。可以将其类比为面向对象编程,其中某种类型的实体就像是类的实例。
Post Reply