摘要
前期回顾:
机器学习与连续流连载系列丨使用康宁反应器集成在线光谱,通过半监督机器学习识别化学反应式计量和动力学模型点击进入原文查看
本期亮点
本期将对机器学习做一次全面感性认识:
什么是机器学习?
机器学习的工作流程是怎样的?
机器学习有几种类型?
机器学习也有局限性?
机器学习(Machine Learning, ML)作为人工智能(Artificial Intelligence, AI)的一个分支,正在逐渐改变我们与技术的互动方式。本文将探讨机器学习的核心概念、工作流程、类型、优势与局限。
点击关注公众号,我们下期不见不散!
在回答机器学习前,先回到人类的学习,什么叫做学习或者学会了?简而言之就是发现规律,能根据已有情况,寻找规律,解决新问题。
“过拟合”,打个比方就像某学生做大量题,他死记硬背,只会做已经做过的相同的题,遇到相同知识基础的新题(稍微变化一下)就不会解答,也就是“泛化能力”差。
比如某某学生在模拟考试中,考试成绩好,到了正式考试时,成绩不理想,很多家长认为没有考试运。当然这个有很多原因,比如考试时紧张,身体出现不适等,但有个原因就是其“泛化能力”差,模拟考是他做过的题,没有从中“泛化”出规律去解答新题。
机器学习类似人类学习,根据大量题型总结规律,根据规律去解决新问题。
人工智能先驱Arthur Samuel,在1950年代将“机器学习”定义为,“使计算机能够在没有明确编程的情况下进行学习的研究领域”。
Nvidia认为“机器学习最基本的是使用算法解析数据,从中学习,然后对世界上的事物做出决定或预测。”
传统编程
机器学习
传统编程需要写好严格的详细的程序指令,根据输入数据得到输出结果。其难度在于程序的编写,有时不能覆盖某些新情况。比如做馒头,写好买1kg白面粉,和面加入X kg水,捏好形状,放入蒸笼蒸X分钟。如果遇到了玉米粉,它就不会做玉米馒头了。
机器学习是通过算法和大量的做馒头的书籍介绍等,总结出通用规律,这样遇到玉米粉也能输出相应做玉米馒头的步骤。所以机器学习难在解析数据结构,发现规律。
机器学习的工作流程包括以下几个关键步骤:
数据收集:从不同来源收集数据,如音乐录音、患者病史或照片。
数据准备:清洗数据、去除错误,并进行格式化,使其适合计算机处理。
选择和训练模型:根据任务选择合适的机器学习模型,并开始训练过程。
模型优化:通过调整参数或设置来提高模型的准确性。
模型评估:使用未包含在训练数据中的新数据来测试模型的泛化能力。
模型部署:将训练和评估好的模型用于对新数据进行预测或识别模式。
机器学习模型主要分为四种类型:
监督学习:使用带有明确描述或标签的训练数据,算法在“监督者”的帮助下学习。监督学习就像做题,有答案和目标可以参照。
无监督学习:使用未标记的训练数据,目的是在没有具体指导的情况下发现数据中的模式、结构或关系。
半监督学习:严格意义上来说不算独立分类,顾名思义就是有一部分有明确描述的数据来训练。例如上篇文章提到的半监督学习。就是先做一部分给答案的题,然后根据规律去做另一半没有答案的题目。
强化学习:计算机程序通过与环境的交互来学习,通过试错来确定在特定情境下的最佳行动。
优势
数据处理能力:机器学习能够处理大量数据,并自行发现模式和进行预测。
灵活性:机器学习模型可以适应新数据,并随着时间的推移不断提高准确性。
自动化:机器学习模型消除了手动数据分析和解释的需要,实现了决策自动化。
局限
过拟合和泛化问题:机器学习模型可能过于适应训练数据,导致无法泛化到未见过的例子。
可解释性:一些机器学习模型像“黑箱”一样运作,即使是专家也无法解释它们的决策或预测。
算法偏差:由于训练数据可能包含人类的偏见,这可能导致算法偏差,产生不公平的结果。