纵有疾风起
人生不言弃

python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记

本文阅读并记录自己的学习笔记。感谢蚂蚁大神的分享。

主要目录:

  1. 爬虫基础
    • 1.1 爬虫课程介绍
    • 1.2 爬虫简介
    • 1.3 爬虫架构
    • 1.4 URL管理模块
    • 1.5 网页下载器:urllib2
    • 1.6 网页解析器:正则或BeautifulSoup
    • 1.7 爬取实践
  2. Scrapy框架的学习
    • 2.1啊

爬虫的难点

  1. 有的网站需要登录
  2. 有些内容是JS的Ajax异步加载的。很难搞到数据。
    但是我们这门课是入门,所以只解决不需要登录的静态加载网页,上面2个问题以后专门去解决。

1 课程内容

  1. 爬虫简介
  2. 爬虫架构

    1. URL管理器
    2. 网页下载器(urllib2)
    3. 网页解析器(BeautifulSoup)
  3. 实战 :
    爬去百度百科关于Python的页面。保存进一个html页面中。

爬虫简介

python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记插图
爬虫比人工快多了。

爬虫价值

过程:爬虫:抓取数据-存储数据-分析数据-产品(大数据)

应用:python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记插图1

原文链接:https://lookme.blog.csdn.net/article/details/70859168

本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理。

未经允许不得转载:起风网 » python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记
分享到: 生成海报

评论 抢沙发

评论前必须登录!

立即登录