数据科学:开始项目之前需要了解的一切
Posted: Thu Dec 26, 2024 10:28 am
在这个特辑中,Zoox Smart Data 很高兴为大家带来有关数据世界的更多信息,以及如何正确看待数据导致我们今天所经历的数字化转型。
“大数据”是当下的流行词。大多数接触过它的人都意识到它是数字化转型过程中的强大力量。然而,很少有人知道可以帮助大大小小的企业利用这场革命的各种可用工具。
但毕竟,什么是大数据,什么是数据科学,如何启动数据科学项目?
在这篇特别报道中,我们力求对它是什么、从哪里开始以及该细分市场对市场的看法提供非常清晰的解释。
好读书。
什么是数据科学?
在我们解释什么是数据科学之前,有必要以说教的方式解释什么 是大数据及其重要性。
传统上,大数据是海量、高速和多样性的数据的表达。传统的数据库技术无法处理它——因此需要数据工程创新。
数据科学是一门收集大数据来预测未来行为、发现模式的艺术,这些模式将帮助我们优先考虑或获取富有成效的信息,甚至从大量未探索的数据中提取意义。数据科学涉及通过(自动)数据分析来理解现象的原理、过程和技术。
当我们谈论数据驱动决策(DOD) 时,我们指的是基于数据分析而不仅仅是直觉做出决策的实践。
麻省理工学院和宾夕法尼亚大学沃顿商学院的经济学家Erik Brynjolfsson及其同事进行了一项关于国防部如何影响公司绩效的研究(Brynjolfsson、Hitt 和 Kim,2011)。
国防部制定了一项衡量标准,对公司使用数据做出决策的情况进行评级。他们表明,从统计数据来看,数据驱动程度越高,公司的生产力就越高——甚至在控制了各种潜在的混杂因素的情况下也是如此。而且差异还不小。 DOD 尺度上多一个标准差与生产率提高 4%–6% 相关。
DOD 还与较高的资产回报率、股本回报率、资产利用率和市场价值相关——这种关系似乎是因果关系。
另请阅读:数据驱动文化:好奇心及其对公司的影响图片---博客文章--数据科学-启动项目之前需要了解的一切
数据科学的主要资产之一是数据以及从中提取有用知识的能力,因为它们被认为是重要的战略资产。
通过将数据充分视为资产,我们可以明确地思考我们应该在多大程度上对其进行投资。
建立一流的数据科学团队是一项艰巨的任务,但它可以对决策产生巨大的影响。
另请阅读:数据驱动的决策:更少的猜测和更多的数据
要开始进入数据科学领域,我需要了解什么?
很难想象数据为我们提供的无限可能性。
在继续之前,我们应该简要回顾一下数据科学的工程方面。关于数据科学的讨论通常不仅提到用于理解数据的分析技能和技术,还提到最常用的工具。数据科学家的定义(和招聘广告)不仅指定了知识领域,还指定了特定的编程语言和工具。
招聘广告中经常会提到数据挖掘技术(例如随机森林、支持向量机)、特定应用领域(推荐系统、广告投放优化)以及流行的大数据处理软件工具(Hadoop、MongoDB)。处理大数据集的科学和技术之间通常没有什么区别。
因此,第一步是具备语言知识,或者专攻单一语言。
接下来,我们必须强调,数据科学和计算机科学一样,是一个新领域。数据科学的具体关注点是相当新的,一般原则也开始出现。
了解流程和步骤有助于构建我们的数据分析思维,使其更加系统化,从而不易出错和遗漏。
有令人信服的证据表明,数据驱动的决策和大数据技术可以显着提高业务绩效。
数据科学支持数据驱动的决策——有时会自动驱动此类决策——并依赖于存储和工程“大数据”的技术,但其原则是分开的。数据科学原理也不同于其他重要技术,但又与之互补,例如统计假设检验和数据库查询(它们有自己的书籍和课程)。
启动数据科学项目需要了解什么?
如您所知,数据科学是从原始数据中提取有意义的信息并在实际活动中有效传达信息的计算机科学。
另一方面,数据工程是一个致力于创建和维护系统的工程领域,这些系统克服了消费、处理和存储大量、多种和高速数据的应用程序的数据处理障碍和数据处理问题。
从事商业智能工作的数据科学家和业务分析师就像表兄弟:他们都使用数据来实现相同的业务目标,但他们的方法、技术和角色存在明显的差异。
商业智能的目的是将原始数据转换为商业信息,领导者和管理者可以使用这些信息来做出数据驱动的决策。业务分析师使用商业智能工具来支持业务管理决策。如果您想从完整的中型结构化业务数据集创建决策支持仪表板、可视化或报告,您可以使用商业智能工具和方法。
对于任何想要进入这一领域的人来说,都有一些极其重要 冰岛手机号码列表 的知识需要探索,从以下主题中,您将了解每个主题对该领域的重要性。
语言
对于那些进入数据科学领域的人来说,最大的问题之一与要使用的语言有关。
一些专家认为,语言本身的性能并不重要,重要的是它的使用方便程度。而其他人则认为需要使用一些关键语言才能使工作变得流畅。
没有对错之分。事实上,每种语言都有其优点和缺点。重要的是至少了解它们并了解哪一种最适合您的业务模式和活动领域。
目前最常用的语言是:
Python;
R;
斯卡拉;
北欧航空;
爪哇;
MATLAB;
W;
C++
数据挖掘
数据挖掘 - 或数据挖掘- 是一个允许您关联数据并在大数据的无限大中发现异常、模式和相关性的过程。
通过使用一些技术,可以获得有价值的见解,有助于增加收入、降低成本、降低风险,并帮助为客户创造超个性化和超细分的体验。
数据挖掘中使用的主要技术有:
分类;
协会;
分组
各种数据
每天融入大数据的速度极快、数据量巨大,导致数据多样性。因此,在数据科学和数据工程中,您通常使用三种数据。
结构化数据:以行和列的形式存储、处理和操作的数据,以表格格式存在于关系数据库 (RDBMS) 中。
非结构化数据:不适合任何结构化数据库格式。此类数据通常是由人类活动生成的。
半结构化数据:这种类型的数据不适合任何结构化数据库,但可以通过标签进行结构化,可用于创建分段、顺序和层次结构。
现在您已经了解了开发数据科学项目所需的知识,接下来让我们了解其实施的分步过程。
逐步实施项目
了解问题和可能的解决方案
了解您寻求解决的问题是高质量项目的基本原则。此定义有助于定义和指导数据科学团队的重点。
通过明确定义的问题,可以制定可能的解决方案并搜索安全的数据源,以帮助构建质量分析,指导果断的决策。
每个问题都必须单独定义、理解和分析。
获取和处理数据
这是最费力和最微妙的步骤之一。文本、表格、音频、照片、视频、文档或评论,数据可以来自不同的来源、格式和结构。
在此阶段,数据所有者和数据科学团队之间的合作非常重要。
数据所有者负责根据其知识和经验提供数据的关键视图,指导哪些数据可靠且可以使用。数据科学团队获取这些信息并应用大数据、采样和数据挖掘技术以获得适当的处理以将其发送进行分析。
重要的是要记住,数据的质量取决于其来源和所采用的处理方法。
数据分析和解释
有了可靠的数据,分析和解释阶段就开始了。
在该项目的这一部分中,机器学习或统计算法用于检测模式、趋势并生成预测模型,这将有助于获得有价值的见解来指导决策。
“大数据”是当下的流行词。大多数接触过它的人都意识到它是数字化转型过程中的强大力量。然而,很少有人知道可以帮助大大小小的企业利用这场革命的各种可用工具。
但毕竟,什么是大数据,什么是数据科学,如何启动数据科学项目?
在这篇特别报道中,我们力求对它是什么、从哪里开始以及该细分市场对市场的看法提供非常清晰的解释。
好读书。
什么是数据科学?
在我们解释什么是数据科学之前,有必要以说教的方式解释什么 是大数据及其重要性。
传统上,大数据是海量、高速和多样性的数据的表达。传统的数据库技术无法处理它——因此需要数据工程创新。
数据科学是一门收集大数据来预测未来行为、发现模式的艺术,这些模式将帮助我们优先考虑或获取富有成效的信息,甚至从大量未探索的数据中提取意义。数据科学涉及通过(自动)数据分析来理解现象的原理、过程和技术。
当我们谈论数据驱动决策(DOD) 时,我们指的是基于数据分析而不仅仅是直觉做出决策的实践。
麻省理工学院和宾夕法尼亚大学沃顿商学院的经济学家Erik Brynjolfsson及其同事进行了一项关于国防部如何影响公司绩效的研究(Brynjolfsson、Hitt 和 Kim,2011)。
国防部制定了一项衡量标准,对公司使用数据做出决策的情况进行评级。他们表明,从统计数据来看,数据驱动程度越高,公司的生产力就越高——甚至在控制了各种潜在的混杂因素的情况下也是如此。而且差异还不小。 DOD 尺度上多一个标准差与生产率提高 4%–6% 相关。
DOD 还与较高的资产回报率、股本回报率、资产利用率和市场价值相关——这种关系似乎是因果关系。
另请阅读:数据驱动文化:好奇心及其对公司的影响图片---博客文章--数据科学-启动项目之前需要了解的一切
数据科学的主要资产之一是数据以及从中提取有用知识的能力,因为它们被认为是重要的战略资产。
通过将数据充分视为资产,我们可以明确地思考我们应该在多大程度上对其进行投资。
建立一流的数据科学团队是一项艰巨的任务,但它可以对决策产生巨大的影响。
另请阅读:数据驱动的决策:更少的猜测和更多的数据
要开始进入数据科学领域,我需要了解什么?
很难想象数据为我们提供的无限可能性。
在继续之前,我们应该简要回顾一下数据科学的工程方面。关于数据科学的讨论通常不仅提到用于理解数据的分析技能和技术,还提到最常用的工具。数据科学家的定义(和招聘广告)不仅指定了知识领域,还指定了特定的编程语言和工具。
招聘广告中经常会提到数据挖掘技术(例如随机森林、支持向量机)、特定应用领域(推荐系统、广告投放优化)以及流行的大数据处理软件工具(Hadoop、MongoDB)。处理大数据集的科学和技术之间通常没有什么区别。
因此,第一步是具备语言知识,或者专攻单一语言。
接下来,我们必须强调,数据科学和计算机科学一样,是一个新领域。数据科学的具体关注点是相当新的,一般原则也开始出现。
了解流程和步骤有助于构建我们的数据分析思维,使其更加系统化,从而不易出错和遗漏。
有令人信服的证据表明,数据驱动的决策和大数据技术可以显着提高业务绩效。
数据科学支持数据驱动的决策——有时会自动驱动此类决策——并依赖于存储和工程“大数据”的技术,但其原则是分开的。数据科学原理也不同于其他重要技术,但又与之互补,例如统计假设检验和数据库查询(它们有自己的书籍和课程)。
启动数据科学项目需要了解什么?
如您所知,数据科学是从原始数据中提取有意义的信息并在实际活动中有效传达信息的计算机科学。
另一方面,数据工程是一个致力于创建和维护系统的工程领域,这些系统克服了消费、处理和存储大量、多种和高速数据的应用程序的数据处理障碍和数据处理问题。
从事商业智能工作的数据科学家和业务分析师就像表兄弟:他们都使用数据来实现相同的业务目标,但他们的方法、技术和角色存在明显的差异。
商业智能的目的是将原始数据转换为商业信息,领导者和管理者可以使用这些信息来做出数据驱动的决策。业务分析师使用商业智能工具来支持业务管理决策。如果您想从完整的中型结构化业务数据集创建决策支持仪表板、可视化或报告,您可以使用商业智能工具和方法。
对于任何想要进入这一领域的人来说,都有一些极其重要 冰岛手机号码列表 的知识需要探索,从以下主题中,您将了解每个主题对该领域的重要性。
语言
对于那些进入数据科学领域的人来说,最大的问题之一与要使用的语言有关。
一些专家认为,语言本身的性能并不重要,重要的是它的使用方便程度。而其他人则认为需要使用一些关键语言才能使工作变得流畅。
没有对错之分。事实上,每种语言都有其优点和缺点。重要的是至少了解它们并了解哪一种最适合您的业务模式和活动领域。
目前最常用的语言是:
Python;
R;
斯卡拉;
北欧航空;
爪哇;
MATLAB;
W;
C++
数据挖掘
数据挖掘 - 或数据挖掘- 是一个允许您关联数据并在大数据的无限大中发现异常、模式和相关性的过程。
通过使用一些技术,可以获得有价值的见解,有助于增加收入、降低成本、降低风险,并帮助为客户创造超个性化和超细分的体验。
数据挖掘中使用的主要技术有:
分类;
协会;
分组
各种数据
每天融入大数据的速度极快、数据量巨大,导致数据多样性。因此,在数据科学和数据工程中,您通常使用三种数据。
结构化数据:以行和列的形式存储、处理和操作的数据,以表格格式存在于关系数据库 (RDBMS) 中。
非结构化数据:不适合任何结构化数据库格式。此类数据通常是由人类活动生成的。
半结构化数据:这种类型的数据不适合任何结构化数据库,但可以通过标签进行结构化,可用于创建分段、顺序和层次结构。
现在您已经了解了开发数据科学项目所需的知识,接下来让我们了解其实施的分步过程。
逐步实施项目
了解问题和可能的解决方案
了解您寻求解决的问题是高质量项目的基本原则。此定义有助于定义和指导数据科学团队的重点。
通过明确定义的问题,可以制定可能的解决方案并搜索安全的数据源,以帮助构建质量分析,指导果断的决策。
每个问题都必须单独定义、理解和分析。
获取和处理数据
这是最费力和最微妙的步骤之一。文本、表格、音频、照片、视频、文档或评论,数据可以来自不同的来源、格式和结构。
在此阶段,数据所有者和数据科学团队之间的合作非常重要。
数据所有者负责根据其知识和经验提供数据的关键视图,指导哪些数据可靠且可以使用。数据科学团队获取这些信息并应用大数据、采样和数据挖掘技术以获得适当的处理以将其发送进行分析。
重要的是要记住,数据的质量取决于其来源和所采用的处理方法。
数据分析和解释
有了可靠的数据,分析和解释阶段就开始了。
在该项目的这一部分中,机器学习或统计算法用于检测模式、趋势并生成预测模型,这将有助于获得有价值的见解来指导决策。