构建行业引擎:相似度评分更新

Telemarketing Leads gives you best benifit for you business. Now telemarketing is the best way to promote your business.
Post Reply
nurnobi40
Posts: 1026
Joined: Thu Dec 26, 2024 5:05 am

构建行业引擎:相似度评分更新

Post by nurnobi40 »

欢迎阅读我们新系列的第二篇文章,我们将揭开行业引擎开发历程的神秘面纱。在这篇文章中,我们将带您一窥 我们改进后的 “类似公司”功能的 幕后花絮。这项改进旨在提升我们平台的可用性,使其更加直观,并让用户更轻松、更快速地获得深入的洞察。错过了 本系列的第一篇文章?点击此处查看



同类公司功能更佳
2022 年 1 月,我们发布了类似公司功能。我们为 44.8 万家公司列出了最多五家类似的公司。

此功能对许多用户来说很有用,但也存在一些问题,导致许多用例无法使用。具体来说,

类似的公司经常使用与原公司类似的词语,但做的事情却截然不同。
那些做类似事情但使用略有不同的语言描述的公司并不相似。
今天,我们非常高兴地宣布,我们已经解决了其中许多问题。现在,我们17 0万家拥 白俄罗斯电报号码数据库 有网站的公司中,绝大多数公司都能显示至少五家类似的公司。


语义搜索
我们最初的相似度评分方法比较了公司网站上出现的词汇,并删除了诸如“and”、“the”、“it”等非常常见的词汇。这意味着一家出售黑胶唱片的商店看起来就像一家帮助人们训练以创下个人举重纪录的健身房。

我们使用语义搜索和基于 LLM 的方法的新方法了解到这两个例子中“唱片”的含义是不同的,并且不再将唱片店评为与健身房相似。


使用词袋模型的余弦相似度方法,“一家出售稀有黑胶唱片的现代唱片店:所有你个人的最爱”的得分与“一家帮助你创下个人纪录的个性化健身房”的得分相似。语义相似度方法可以理解这两个短语的相似度不如表面看起来那么高,但其详细的特征向量人类无法解读。

当两家公司业务相似但描述方式不同时,语义搜索的效果也会更好。许多公司在其网站上谈论招聘。这意味着网站上出现“招聘”一词并非识别招聘公司的有效方法。

诸如“猎头”、“人才招聘”和“候选人寻源”等短语的出现更为有效,但由于这类短语种类繁多,很难在所有招聘网站的搜索结果中都找到相应的关键词。语义搜索解决了这个问题,因为它能够理解这三个短语以及许多其他短语的含义相似。


“屡获殊荣的猎头公司:提供最合适的候选人,满足您量身定制的人员配置需求”与“一家领先的人才招聘服务公司,为您难以填补的棘手职位寻找人才”通过词袋余弦相似度方法完全没有相似之处。语义相似度方法可以理解这两个短语非常相似。语义相似度方法中使用的两个短语的详细特征向量是人类无法解读的。

为什么这不能取代机器学习
我们改进了类似公司功能,让您更轻松地找到类似公司。它不会取代我们构建列表的机器学习方法。

我们的机器学习列表和实时行业分类 (RTIC)方法会将所有公司与包含数十家公司的训练集进行相似性和差异性分析。这种方法能够在更严格的行业定义下,持续发现更多公司,同时错误率也更低。

我们的机器学习列表方法还有另一个优势。虽然我们新的相似性功能效果很好,但我们无法解释其背后的原因。在我们给出的简短示例中,我们可以反向推导来解释相似性,但当考虑一家公司的整体网络形象时,这几乎是不可能的。虽然这种黑箱相似性方法非常适合一次性的相似性搜索,但它并不适用于定义行业和构建更大的公司列表。

后续步骤Next steps
我们将在未来几个月大力开发此功能。我们计划进一步改进相似度评分,并就此功能如何加速和改进现有流程(例如构建机器学习列表和构建行业引擎)提出了一些想法。

如果您对我们的相似度得分的质量有任何反馈或对新功能有任何建议,请告知我们。
Post Reply