之前学了Python好久都没有用,感觉再不继续学就要忘了。。。赶紧再挖个坑继续学习。这个部分会用Python去做爬虫来进行学习,巩固python的知识。

 

爬虫的教程看的是Jack-Cui大佬的文章。这一次是跟着大佬学习:

Python3 网络爬虫(二):下载小说的正确姿势(2020年最新版)_Jack-Cui-CSDN博客

练习 – 爬取章节

前面的爬虫基础部分就看大佬的上一篇博文,讲的非常棒:

Python3 网络爬虫(一):初识网络爬虫之夜探老王家(2020年最新版)_Jack-Cui-CSDN博客

 

这里我就直接上手开始练习了。首先打开审查界面,可以看到这个网站的这个结构确实比较简单。

 

首先我们来提取数据为,div, id = ‘list’的内容:

可以看到可以提取出所有章节的标题和一个网址,但是数据纠缠到一起要进行一下处理。

 

 

回到网址,进行进一步的数据解析。可以看到每个章节的网址,都存在url标签为href的内容中:

 

因此这里可以使用get方法,去得网址。另外对于章节名部分,由于每一个chapter里面章节名均为string格式的文字,可以筛选出每行数据里为文字的数据:

 

运行效果:

 

 

下载每章节小说

 

大佬的原版代码如下:

 

但是由于不想要下载完整小说(但是需要注意里面get_content()方法的作用!),这里改为保存小说标题和对应链接:

点击运行,可以在下面console看到下载进度:

下载结果如下,可以看到就成功下载了我们想要的小说标题和对应链接:

 

 

最后引用一下大佬的总结:

 

本文地址:https://blog.csdn.net/weixin_44281768/article/details/110421922