Scrapy学习实例(二)采集无限滚动页面

财富学堂
财富学堂
财富学堂
2049
文章
0
评论
2020年11月29日11:44:36 评论 152 707字阅读2分21秒

Scrapy学习实例(二)采集无限滚动页面。

上一篇写的是采集虎嗅网首页的新闻数据,有朋友对我说,自媒体平台采集多页试试看。后来研究下,虎嗅网首页是POST加载,Form Data中携带参数,所以只需要带上一个循环就好了。这是我最初的想法,先让我们看看Scrapy中如何采集无限滚动页面?

先举个栗子,自动采集是quotes

下拉时,会发现更多新的请求,观察这些请求,返回的都是json数据,也就是我们所需的,再看看他们的不同,也就是参数的改变,完整链接是:

这就很清晰了。自媒体平台

Scrapy学习实例(二)采集无限滚动页面

返回的是json,我们需要解析,然后提取数据,那我们如何知道最多有多少条json呢,文件已经告诉我们了:

Scrapy学习实例(二)采集无限滚动页面

has_next:true

Scrapy学习实例(二)采集无限滚动页面

查看网站,采集text、author和tags这三个

运行爬虫,然后就可以看到结果了。

那么如何应用到虎嗅网呢?首先还是要去分析网页。

虎嗅网的参数有3个:

我们知道page就是翻页页码,汽车自媒体又因敏感问题被查,抖音出海前途堪忧?,huxiu_hash_code是一个不变的字符,last_dateline看起来像unix时间戳,验证确实如此。这个时间戳有必要带上吗,我想验证试试看。

在postman中测试,不带上last_dateline也是可以返回数据,汽车自媒体并且这个json中已经告诉我们一共有多少页:

total_page: 1654

在主函数中我们可以依葫芦画瓢

输出的数据有点难看,是一段一段的。。

因为data[data]是一段html文件,所以这里选择的是xpath,不清楚这里是否直接使用Scrapy的xpath解析工具,如果可以,欢迎在评论中告诉我。

原文在此 Scrapy学习实例(二)采集无限滚动页面

财富学堂
  • 本文由 发表于 2020年11月29日11:44:36
  • 转载请务必保留本文链接:http://www.133229.com/1242.html
圈地自媒体 今日头条们的救赎之路 自媒体

圈地自媒体 今日头条们的救赎之路

圈地自媒体 今日头条们的救赎之路。 相隔一天,一点资讯、今日头条召开声势浩大的发布会,披露系列自媒体扶持计划。巧合的是,百度旗下自媒体平台百家也低调改版,从评论风格转向资讯为王。看似掌握技术和数据的佼...
米拓CMS网站管理系统一站式文章采集发布工具 自媒体

米拓CMS网站管理系统一站式文章采集发布工具

米拓CMS网站管理系统一站式文章采集发布工具,一个成功网站的背后一定少不了一个为此而默默付出的人,相信大家都盼着站内的文章能够被收录的越多越好,越快越好。然而理想很美满,现实很骨感!站内文章不但没有得...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: