转发!一文掌握数据了解知识体系
数据分析是指有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 1 数据定义 数据是客观事实,对于客观事物发生,发展的数字化记录。随着科学技术的发展,数据的概念内涵越来越广泛包括数值,文本,声音,图像,视频。 数据可以分为定性数据和定量数据。 定性数据是用来描述事物的属性,名称等,它一种标志,没有序次关系。例如,“性别”,“男”编码为1,“女”编码为2。 定量数据描述量化属性,或用于编码。如交易金额、额度、商品数量、积分数、客户评分等都属于量化属性。 定量数据可以继续划分:定序数据、定距数据与定比数据。 定序数据(Ordinal):数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。 定距数据(Interval):具有间距特征的变量,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。例如,温度。 定比变量(Ratio):数据的最高级,既有测量单位,也有绝对零点,例如职工人数,身高。 2 数据分析大事记 计算机时代崛起 计算机的发展和计算技术的发展极大地增强了数据分析的过程。1880年,在使用计算机之前,美国人口普查局花了7年的时间来处理收集到的信息并完成最终报告。使用此设备,在18个月内完成了1890年的人口普查。 关系数据库诞生 关系数据库由埃德加·科德(Edgar F. Codd)在1970年代发明,并在1980年代非常流行。关系数据库(RDBM)允许用户编写Sequel(SQL)并从其数据库中检索数据。关系数据库和SQL提供了能够按需分析数据的优势,并且仍在广泛使用。它们易于使用,对于维护准确的记录非常有用。 数据仓库诞生 在1980年代后期,收集数据的数量继续显着增长,部分原因是硬盘驱动器的成本较低。在此期间,开发了数据仓库的体系结构,以帮助将来自操作系统的数据转换为决策支持系统。数据仓库通常是云的一部分,或者是组织的大型机服务器的一部分。与关系数据库不同,数据仓库通常经过优化,可快速响应查询。 商业智能(BI)崛起 20世纪80年代-90年代,数十家BI厂商进入市场。数据仓库技术的发展大大推动了商业智能的发展,传统存储在各个地方的业务数据开始集中在一起。应运而生的技术还包括ETL(数据抽取、转换、加载)和OLAP(联机分析处理)。 数据挖掘崛起 数据挖掘始于1990年代,是在当时多个学科发展的基础上发展起来的。随着数据库技术的发展应用,数据的积累不断膨胀,导致简单的查询和统计已经无法满足企业的商业需求,急需一些革命性的技术去挖掘数据背后的信息。 大数据来临 2000年到2010年是大数据兴起和备受关注的时期,谷歌的“三驾马车”:谷歌文件系统、MapReduce和 BigTable。亚马逊也发表了一篇关于 Dynamo系统的论文。这几篇论文奠定了大数据时代的基础。随着大数据的到来,海量的数据以及新的技术发展,帮助公司将数据转化为洞察力。 数据科学家 2012年9月, Tom Davenport和DJ Patil 在《哈佛商业评论》上发表了“数据科学家:21世纪最性感的工作” 。 增强分析 2017年,Rita Sallman,Cindi Howson和Carlie Idonies在Gartner的研究论文中引入了增强分析的概念,并将其描述为一种新的数据分析方法,可使用机器学习和自然语言生成(NLG)自动化见解。增强型数据分析大大提升了数据分析效率,降低数据分析的门槛,人人都可以像数据科学家一样,对数据进行多维度的自动钻取,自动加载各种模型进行深度分析。 3 数据分析 VS 数据科学 VS 商业智能 商业智能(Business intelligence ) 泛指用于业务分析的技术和工具,通过获取、处理原始数据,将其转化为有价值的信息指导商业行动。维基百科定义为一个组织将所有资源转化为认知的能力。 (编辑:上饶站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |