知道创宇爬虫设计第五天:Spider
准备工作完成的差不多了,今天尝试下把之前的模块都整合起来做一个初期版本
首先 What is the difference between web-crawling and web-scraping?
感觉其实这个答案比最佳答案更简洁明了
Web Crawling is what Google does - it goes around a website looking at links and building a database of the layout of that site and sites it links to
Web Scraping would be the progamatic analysis of a web page to load some data off of it, EG loading up BBC weather and ripping (scraping) the weather forcast off of it and placing it elsewhere or using it in another program.
我的理解就是web-crawling
在于广度,web-scraping
在于精度
BeautifulSoup
为了crawl
,需要从页面提取出用于进一步爬取的 URL ,BeautifulSoup 正好能方便快捷地完成这个任务,上手也很简单,基本上看看官方文档就万事大吉了
FileHandler
在整合 logger 的时候发现一个问题,使用logging.config.fileConfig('logging.conf')
的话,需要提前在配置文件里写定日志保存路径,为了配合参数设定其他路径,似乎(看了一下 FileHandler 的用法)只能额外添加一个了
|
代码
目前爬虫已经基本能用,但偶尔还是会出现502
,然后该往数据库里放些什么东西还有待考虑,另外也没有加上自测功能
|