环境搭建
关于语言
对于网络爬虫来说,其本质就是发送http请求,然后提取网页的内容信息进行入库分析等操作,所以对于任何语言都可以构建爬虫应用。我曾经就用过C#、C++、Java、Swift、Golang、Python这些语言来编写爬虫应用。
总结来说,这里还是最推荐python,其优点就是学习简单,并且库十分全面,编写起代码来十分轻巧,另外python拥有丰富的机器学习库、数据处理库,如scikit-learn、numpy、pandas等等,可以用来处理我们爬取的数据。
本系列文章假设读者已经掌握了python语言的最基本语法,并有一定的编程基础。
关于代码编辑器
作为一门脚本语言,python代码不需要编译、链接等步骤,只需要使用python的解释器解释执行就好了,所以使用一个记事本就可以完成python的编码工作。不过为了更加高效的编写代码,程序员都会选择一款代码编辑器。
如果对于python很熟悉,不需要代码拼写提示等功能,其实使用常见的代码编辑器如Atom、Sublime Text 即可(当然如果配置插件,这些编辑器也可以有强大的代码提示功能,不过新手配置起来可能会遇到困难)。
如果需要代码提示,我感觉用的最舒服的还是JetBrains系列的Pycharm更好用一些。我本身也主要在用Pycharm。
关于浏览器
浏览器除了浏览网页以外,对爬虫开发者来说还可以对网页的Html元素、发送的HTTP请求进行分析。市面上基本上所有的浏览器都支持这两种功能,但是普遍来说用的最多的还是Chrome浏览器。
下面,我们首先通过Chrome浏览器下载一个weibo上的小视频,来学习如何用Chrome浏览器抓取网络请求。
用Chrome抓取网络请求
视频的链接:http://weibo.com/tv/v/FaOp9o8Ct
打开Chrome浏览器后,我们可以首先打开一共空白页面,然后右键,选择检查。
点击检查后,可以看到弹出一个Dock窗口,为了方便查看页面内容,我习惯把这个Dock窗口放在右边。
在这个Dock窗口中,有很多个选项卡,在本系列教程中,主要使用到Elements和NetWork这两个,一个负责审查Html元素,一个负责记录网络请求。目前需要使用网络抓取功能,所以先跳到Network这个选项卡中。
下面,在浏览器中输入视频的链接并回车,就可以看到网页加载出来了,其中的网络请求也记录在了右边。
可以看到这些网络请求有html、css、js、图片等等,点击一个条目后都可以看到请求的详情,在这里面其中有一个请求大小很大,并且在一直增长,可以想象这就是我们正在观看的视频文件。
我们点击这个请求可以看到请求的真实链接地址,这个地址中还带了个mp4,显然就是我们正在观看的视频文件。
我们把链接复制下来,在一个新的Tab中输入链接后回车,可以看到已经把视频下载到了本地。
用本地的影音播放器打开,和线上的一模一样。
爬虫入门
学习了上面的小技巧,如果碰到你想下载的音乐、想下载的视频,通过这种方法就可以下载下来(当然优酷、爱奇艺这样的专门做视频的网站已经规避了这种方法)。
下面,将正式开始学习网络爬虫,本章将以http://nladuo.cn/scce_site/为例, 爬取它的通知公告的文本信息。
使用requests下载网页
网页主要由HTML、CSS、JavaScript代码以及图片等资源组成,其中HTML控制页面的结构,CSS控制页面的样式,JavaScript控制页面的逻辑。对于目前大部分的网站,我们要爬取的文本信息一般情况下都保存在HTML中。(也有些网站使用JavaScript来控制页面的结构和信息,HTML中不存在需要爬取的信息,我们将在反反爬虫篇再详细介绍这种情况。)
在python中,我们可以通过requests库来下载一个网页的html。比如说上面的这个链接,我们可以通过以下一行代码把网页信息下载下来,然后通过print打印它。
1 | import requests |
在运行代码前,请先使用pip安装requests库,使用以下命令即可完成对库的安装:
1 | pip install requests |
运行代码后,可以看到显示出一堆html的标签。
在浏览器中,也是先下载这样的html页面,然后根据html代码的结构展示到显示屏中的。
网页结构
下面,我们来看看HTML如何对应到网页的结构中的,我们先打开这个网址然后使用chrome浏览器查看一下这个网页的结构,像上面的抓取网络请求一样,我们按下右键然后选择检查,并在右边弹出的选项卡中选择Elements项。
在Elements的左侧有个箭头,点击这个箭头后,箭头变为选中状态。箭头处于选中状态时,用鼠标滑动到左侧的网页中,可以看到右侧对应的html信息。
在上图中,可以看到新闻信息处在class为every_list的div标签中。展开div的class为every_list标签后,可以看到在class为list_title标签下面的a标签中,存放着新闻的链接(a.href),新闻的标题(a中间的文本);在class为list_time的标签中,存放了新闻发布的日期。
使用BeautifulSoup解析Html
那么,我们如何从HTML中提取这些文本呢?这里可以使用HTML解析库解析HTML的内容,常见的有BeautifulSoup,HtmlParser、PyQuery等等。
这里,我们选用BeautifulSoup,还是先用pip安装一下依赖。
1 | pip install bs4 |
在使用requests下载html后,我们把html传给一个BeautifulSoup对象后,即可对html进行解析,使用find查找指定元素。
1 | import requests |
在上面代码中,使用find_all方法首先找到所有的class为every_list的div标签,然后对div进行遍历,逐个打印每个标签下面的list_title和list_time。(更详细的API,读者可以查阅BeautifulSoup的文档。)
运行上述代码后,成功打印出了新闻的基本信息。
至此,我们的第一个爬虫也就完成了。