URL管理器的作用
URL管理器的作用:管理待抓取URL集合和已抓取URL集合。防止重复循环抓取死循环。
URL管理器的实现方式
URL管理器的实现方式有三种:
- 适合个人的:内存
- 为啥用set()呢?
- 因为:python的set可以自动去除重复的元素。
- 小型企业或个人:关系数据库(永久存储或内存不够用)
- 用一个字段表示URL
- 用另一个字段判断是否被爬取过。
- 大型互联网公司:缓存数据库(高性能)
原文链接:https://lookme.blog.csdn.net/article/details/71082114
本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理。
还没有人抢沙发呢~