机器学习2——基本概念


机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。


访问作者github: https://github.com/NefelibataBIGR/Machine_Learning_Notes获取笔记代码

  • 深度学习 ⊆ 机器学习 ⊆ 人工智能
    • 机器学习是人工智能的一个实现途径
    • 深度学习是由机器学习发展而来
  • 应用领域:传统预测、图像识别、自然语言处理
  • 理论书:《机器学习》“西瓜书”、《统计学习方法》
  • 库:sklearn
  • ==模型选择==:
    image.png

一、基本概念

  • 机器学习:Machine Learning(ML)
    • 定义:从数据中自动分析获得模型(规律),并利用模型对未知数据进行预测(解决问题)
  • ==算法==是核心,数据计算是基础

1、数据集的构成

  • 结构:特征值+标签值(不一定有)
    image.png
    ↑通过前四列特征值(x),预测最后一列标签值(y)
    每一行称为样本
    有些数据集可以没有标签值(聚类、分类)

2、算法的分类

  • 按照标签值是:

    • 类别:分类问题
    • 连续型数据:回归问题
    • 无:无监督学习
  • 分为==监督学习(supervised learning)和无监督学习(unsupervised learning)==

    • 监督学习:==分类、回归(有特征值、有标签值)==
    • 无监督学习:==聚类(有特征值、无标签值)==
  • 算法:

    • 监督学习(预测):
      • 分类问题:k-近邻算法、贝叶斯算法、决策树与随机森林、逻辑回归
      • 回归问题:线性回归、岭回归
    • 无监督学习:
      • 聚类:k-means

3、开发流程

  1. 获取数据
  2. 数据处理
  3. 特征工程
  4. 机器学习算法训练,得到模型
  5. 模型评估(必要时返回第二步再逐步修改)
  6. 实际应用
    image.png

文章作者: Nefelibata BIGR
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Nefelibata BIGR !
  目录