python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记

时间: 2020-12-12｜tag：Python 爬虫网页｜96次围观｜0 条评论

本文阅读并记录自己的学习笔记。感谢蚂蚁大神的分享。

主要目录：

爬虫基础
- 1.1 爬虫课程介绍
- 1.2 爬虫简介
- 1.3 爬虫架构
- 1.4 URL管理模块
- 1.5 网页下载器：urllib2
- 1.6 网页解析器：正则或BeautifulSoup
- 1.7 爬取实践
Scrapy框架的学习
- 2.1啊

爬虫的难点

有的网站需要登录
有些内容是JS的Ajax异步加载的。很难搞到数据。
但是我们这门课是入门，所以只解决不需要登录的静态加载网页，上面2个问题以后专门去解决。

1 课程内容

爬虫简介
爬虫架构
1. URL管理器
2. 网页下载器（urllib2）
3. 网页解析器（BeautifulSoup）
实战：
爬去百度百科关于Python的页面。保存进一个html页面中。

爬虫简介

python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记插图
爬虫比人工快多了。

爬虫价值

过程：爬虫：抓取数据-存储数据-分析数据-产品(大数据)

应用： python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记插图1

原文链接：https://lookme.blog.csdn.net/article/details/70859168

本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理。

本博客所有文章如无特别注明均为原创。
复制或转载请以超链接形式注明转自起风了，原文地址《python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记》

　李航博士的《浅谈我对机器学习的理解》机器学习与自然语言处理文件操作与数据存储json　

还没有人抢沙发呢~