有趣生活

当前位置:首页>科技>数据分析统计学习机器学习理论入门-数据分析

数据分析统计学习机器学习理论入门-数据分析

发布时间:2026-06-01阅读(0)

导读春节前经过漫长的学习,终于把机器学习基础知识学习的知识大概过了一遍,后续学习中会经常翻开基础知识学习的知识点。接下来进入机器学习理论入门知识的学习本篇文章主....

春节前经过漫长的学习,终于把机器学习基础知识学习的知识大概过了一遍,后续学习中会经常翻开基础知识学习的知识点。接下来进入机器学习理论入门知识的学习

本篇文章主要讲python数据分析和统计学习概论两大块知识点

python数据分析

机器学习一般选用工具语言为python,在学完机器学习的数学基础知识后,还需要掌握python的简单用法及利用python进行数据分析。python的学习可以看廖雪峰老师的免费课程,数据分析可以看github上一位大牛对《利用Python进行数据分析》的讲解

本打算对python数据分析进行博客编写呢,但是看了github上的知识点,感觉作者讲的已经非常详细了,另外数据分析的知识点也很多,写博客的话至少得用两个月时间,进度不等人呢,大家可以直接去github上进行数据分析的学习

数据分析github地址:https://github.com/iamseancheney/python_for_data_analysis_2nd_chinese_version

一个题外话哈,在 数据分析-绘图和可视化 的学习中想到了大学时期学的前端知识,激动上大学时候学了html、css等前端知识,并且在期末完美的做出一个网页作业后,感觉很兴奋,觉得前端知识很有用,等走向工作岗位,没有深入研究前端知识,大学里面学习的前端知识也忘的差不多了。学习了数据分析-绘图和可视化,感觉似曾相识,知识点和大学时期学的前端知识有很大关系。现在的感觉就是老友相逢一样激动,这些知识看一遍练一遍感觉理解了,但是后续还需要多在实际项目中练习,这样才能牢记这些知识点

统计学习概论

学习统计学习算是进入机器学习理论入门阶段了,在B站看大牛针对李航老师的统计学习的学习视频进行学习。作为机器学习中非常重要的知识-统计学习的知识点会逐一进行讲解,本篇文章学习的重点是统计学习概论

统计学习分为监督学习和无监督学习

监督学习的实现步骤:

1.得到一个有限的训练数据集合

2.确定模型的假设空间,也就是所有的的备选模型

3.确定模型选择的准则,即学习的策略

4.实现求解最优模型的算法

5.通过学习方法选择最优模型

6.利用学习的最优模型对新数据进行预测或分析

统计学习三要素

1.模型(假设空间):

2.策略:

这里说下结构风险最小化,加入了正则项,是为了减少数据复杂度,防止过逆合

3.算法

(每个算法有不同的优势,也有不同的缺陷)

挑选一个合适的算法,使得可以求解最优模型

模型评估与选择

运用训练误差、测试误差比较哪个模型更优。

比如100条数据,拿出80条数据作为训练集,剩余20条数据作为测试集。首先用训练集进行n轮模型训练,然后在训练集、测试集中各拿出10条数据作为验证集进行模型训练,最后在测试集中进行测试。通过训练集、测试集、验证集每次模型训练的比较,选出分数最高的作为该模型的最优方式与其他模型做比较

正则化与交叉验证

1.正则化

模型复杂度高的时候会出现过逆合的情况,正则项的作用是要求所有参数都变小,减少数据复杂度,防止过逆合

2.交叉验证

数据集随机划分为以下3部分:

训练集:模型的训练

测试集:模型的选择

验证集:模型的评估

泛化能力

期望风险针对测试集、验证集等都适用;经验风险是训练集推导出来的

泛化误差上界有很大局限性,实际工作中不会出现有限个数据,都是大批量数据

生成模型与判别模型

如何知道女孩子的姓名呢?

生成方法:

我要是把她爸妈建模出来,直接问她爸妈不就行了吗?

判别方法:

她叫小红的概率是多少?她叫小刘的概率是多少?

分类问题

TP - 将正类预测为正类数;

FN - 将正类预测为负类数;

FP - 将负类预测为正类数;

TN - 将负类预测为负类数。

总结

1.统计学习路线:设计模型 -> 训练 -> 预测

2.统计学习三要素:模型、策略、算法

3.模型的评估:训练误差、验证、测试误差

4.正则化与交叉验证

5.泛化能力:泛化误差上界

6.生成模型与判别模型的联系与区别(注:在朴素贝叶斯章节详细讲解)

7.分类问题:准确率、精确率、召回率、F1值

#头条创作挑战赛#

Copyright © 2024 有趣生活 All Rights Reserve吉ICP备19000289号-5 TXT地图HTML地图XML地图