本文阅读并记录自己的学习笔记。感谢蚂蚁大神的分享。
主要目录:
- 爬虫基础
- 1.1 爬虫课程介绍
- 1.2 爬虫简介
- 1.3 爬虫架构
- 1.4 URL管理模块
- 1.5 网页下载器:urllib2
- 1.6 网页解析器:正则或BeautifulSoup
- 1.7 爬取实践
- Scrapy框架的学习
- 2.1啊
爬虫的难点
- 有的网站需要登录
- 有些内容是JS的Ajax异步加载的。很难搞到数据。
但是我们这门课是入门,所以只解决不需要登录的静态加载网页,上面2个问题以后专门去解决。
1 课程内容
- 爬虫简介
-
爬虫架构
- URL管理器
- 网页下载器(urllib2)
- 网页解析器(BeautifulSoup)
-
实战 :
爬去百度百科关于Python的页面。保存进一个html页面中。
爬虫简介
爬虫比人工快多了。
爬虫价值
过程:爬虫:抓取数据-存储数据-分析数据-产品(大数据)
应用:
原文链接:https://lookme.blog.csdn.net/article/details/70859168
本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理。
还没有人抢沙发呢~