pip install selenium |
准备工作完成,代码写起来吧~
3. 迷你爬虫的实现
我们这次的目标是爬取热门歌单,比如网易云音乐中播放量大于1000万的歌单信息(歌单名称、链接)。
a. 我们先来打开网易云的歌单第一页:
https://music.163.com/#/disco...
b. 使用Chrome的开发者工具<F12>进行分析。
我们想要拿的信息全在这里:
c. 我们还需要遍历所有的页,使用工具继续分析,找到“下一页”的URL。
d. 切换至最后一页,拿到最后一页的URL。
e. 等我们爬取完所有符合的歌单信息后,将其保存在本地。
f. 全部工作结束,最后再通过下面的伪代码回顾下整体思路。
g. 爬取的效果如下: