数据供应链是数据的收集、处理和转换,成为机器学习算法进行预测和决策的基础。机器学习模型的准确性取决于链中数据的质量和数量。
第一步:收集
第一步,从各种来源收集信息:数据库、传感器、平台、社交网络等。我们需要有关 ML 模型解决的场景和问题的相关且可靠的信息。
为机器学习项目准备客户数据并不总是一件容易的事。尤其是组织外部和内部的信息来源不同。为了准确性,选择更有可能实现预测以解决业务问题的目标的数据。这不仅仅是响应废弃购物车或提出建议 马其顿 whatsapp 数据 的能力,不是收集最新信息并对其进行平均,而是预测未来的能力。
对于品牌而言,输入数据包括有关网络活动、购买和客户服务交互以及移动应用程序中的用户行为的信息。
对于信息不太容易获取的场景,可以通过托管数据层补充一层信息(数据层)。静态数据作为网站页面上动态数据层的补充,实时收集信息。
此外,考虑到新规则(GDPR等),公司必须获得同意才能使用个人数据。确保正确合法地收集机器学习信息。
第 2 步:标准化和规范化
收集后,数据将被标准化并转换为机器学习算法可以处理的格式。无论来源或类型如何,都能实现一致性。重复和不相关的信息被删除,缺失的值被填充。数据被转换为标准格式:CSV或JSON,可以由机器学习算法处理。
机器学习算法需要一致且统一的信息才能产生准确的结果。否则,模型中就会出现错误或偏差。例如,如果数据包含缺失值或不兼容的格式,ML算法将产生不准确或不可靠的预测。
数据科学家花费数十个小时来清理和标准化“脏”数据。你甚至必须根据不完整和不正确的信息做出决定,而研究人员并不总是理解这些信息。
特殊的客户端扩展操作数据并对源中不适合 ML 的信息进行标准化。正确的做法是当信息从服务器到达时在客户端的浏览器中执行此操作。
事件规范- 以实时模式检查传入数据集的质量。当新事件发生时触发。信息的纯度和机器学习要求的合规性在几分钟内即可得到测试。