第一章 绪论
1.1 引言
- 机器学习:
- 我们把经验数据提供给计算机,它就能基于这些数据产生模型;【(色泽 = “浅白;根蒂 = “蜷缩”)是好瓜……】在面对新的情况时候他就能给我们提供相应的判断【判断一个没剖开的瓜是不是好瓜】。
- 本书为什么叫西瓜书?
1.2 基本术语
- 数据集:N个示例组成的集合称为数据集。
- 示例 / 特征向量:一条记录是关于一个事件或者对象的描述,称为一个示例。
- 属性:反映事件或对象在某一方面的表现或性质的事项叫做属性。
- 属性空间 / 样本空间 / 输入空间:属性张成的空间称为属性空间。

学习 / 训练:从数据中学得模型的过程称为学习或训练。
标记:关于示例结果的信息称为标记,拥有了标记信息的示例,则称为样例。
- 【例:((色泽=青绿;根蒂=蜷缩;敲声=浑浊),好瓜)】
标记空间 / 输出空间:所有标记的集合称为标记空间或输出空间。
根据训练数据是否拥有标记信息,学习任务可大致分为监督学习和无监督学习。
- 监督学习:提前给计算机大量图片并告诉它哪个是猫那个是狗,判断新图片中是猫还是狗。
- 无监督学习:给计算机大量图片,让计算机自己把猫狗分类。
分类 | 回归:
- 若预测的是离散值,此类学习任务称为分类。
- 若预测的是连续值,此类学习任务称为回归。
- 个人理解:区别就看答案是不是只有唯一一个,例如预测房价499实际500,预测498也很好;但是如果预测图片中是猫还是狗,那么答案只能有一个。
学得模型后,使用其进行预测的过程称为测试。
将训练集中的样本分为若干组的过程,称为聚类,其中每一个组称为一个簇。
学得模型适用于新样本的能力,称为泛化能力。