使用网页监听指令获取数据

在网页上抓取数据时遇到某些图表数据无法抓取、元素经常变动或者网页存在广告影响操作,可以考虑使用网页监听获取想要的数据。

操作步骤

打开想要抓取数据的网页,在网页上按 F12 打开开发者模式。

按 Ctrl + R 重新加载网页。

等待想要的数据加载完成,在网络(Network)标签页激活搜索框,键入想要的数据,回车。

如图

如果无法找到目标数据,尝试换其他可能出现的数据搜索,削减关键词数量,或者依次在请求列表中寻找数据。

开始监听数据,获取网页对象-开始监听请求-跳转至新网址(重新加载)-延迟执行(等待加载完成)-获取网页监听结果(获取第一步中得到的URL的监听结果)-停止监听网页请求。

数据可能较多,建议不要打印,先写入文本文件

打开写入的文件,按 Crtl + F 查找是否找到想要的数据。

用指令获取网页请求结果得到的是一个包含目标 url 各项数据的字典,response 内的数据包含在循环项字典的键[“body”] 中,body 是一个字符串,转化成 json 对象后即可对其中的数据进行提取。

为了便于观察结构可以先把 body 的数据取出来在 json.cn 粘贴,会自动转换成便于观察的格式。

粘贴到格式化工具后发现想要的数据在列表 goodsDetailList 中:

于是按以下逻辑取对应的数据:

流程执行结果:

问题没有解决?去社区提问 all right reserved,powered by Gitbook

results matching ""

    No results matching ""