网页抓取器
(1)Python官方支持库
Python原生的http库,如urllib,urllib2,urllib3等。需要注意的是,urllib和urllib2是相互独立的模块,不是升级版的意思。如下为urllib/urllib2的简单使用示例:
1 | urllib.urlencode({'param1': 'hello', 'param2': 'world'}) |
(2)第三方库requests
requests是非常好用的第三方http请求库,其API设计的比较简单易用,建议后面就使用requests库就好了。如下为requests库的简单使用示例:
1 | response = requests.get() |
网页解析器
网页解析有如下几种解决方案:
(1)字符串处理-正则匹配
(2)Python官方自带库html.parser
(3)第三方网页解析库BeautifulSoup
(4)第三方网页解析库lxml
学习资料参考于:
http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html