加入收藏 | 设为首页 | 会员中心 | 我要投稿 上饶站长网 (https://www.0793zz.com.cn/)- 数据库平台、视觉智能、智能搜索、决策智能、迁移!
当前位置: 首页 > 大数据 > 正文

理解数据类型:每个数据科学爱好者都应该了解的数据结构

发布时间:2021-06-04 15:28:55 所属栏目:大数据 来源:互联网
导读:1. 数值数据 用数字所衡量表述的数据,进一步分为两种表示形式: 连续型数据可以表示时间间隔中的任何值,例如汽车的速度、心率等。 离散型只能接受整数值的数据,如计数值。例如,投掷一枚硬币20次,正面朝上的次数。 2. 分类数据 只能表示可能类别中一组特

1. 数值数据

用数字所衡量表述的数据,进一步分为两种表示形式:

  • 连续型——数据可以表示时间间隔中的任何值,例如汽车的速度、心率等。
  • 离散型——只能接受整数值的数据,如计数值。例如,投掷一枚硬币20次,正面朝上的次数。

2. 分类数据

只能表示可能类别中一组特定的数据。也称为枚举、因子或名词性因子。

  • 二进制型,这种分类数据是二进制分类的一种特殊情况,即只有0/1或者说真/假两个值。
  • 有序型,有明确前后顺序的分类数据。例如对一家餐馆的五星评价制。(1、2、3、4、5)。

那么问题来了,为什么需要了解这些数据类型呢?因为不知道数据类型,将会不知道如何应用正确的统计方法处理这类数据。举例来说,如果数据框中有一列有序号数据,就必须要进行预处理,在Python中,scikit-learn包提供了一个序号编码器来处理序号数据。

下一步是深入研究结构化数据,以及如何使用第三方工具包和库来操作这些结构。我们主要有两种类型的结构或数据储存模型:

  • 矩形
  • 非矩形

矩形数据

数据科学中大多数的分析对象都是针对二位矩形数据(如数据框、电子表格、CSV文件或是数据库表格)完成。

矩形数据主要由表示数据类型的行和表示列的变量/特性组成。数据框是一种特殊的数据结构,采用表格格式,提供了高效的数据操作可能。数据框是最常用的数据结构,下方是一些重要的定义:

  • 数据框:用于统计和机器学习模型的有效操作和应用的矩形数据结构(如电子表格)。
  • 特性:数据框的列值通常被称为特性。同义词有(属性、输入值、预测值、变量)。
  • 结果:许多数据科学项目都涉及到结果预测——通常输出值yes/no。
  • 记录:数据框中的一行通常被成为记录。同义词(实例,模式值,样本值)。

关系数据库表将一个或多个指定的列作为索引,本质上是行号查询。这可以极大程度地提高某些数据库的查询效率,在Panda dataframe中,可以根据行的顺序自动创建一个整数索引。在Pandas中还可以设置多层次索引提高操作效率。

(编辑:上饶站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读