使用网页监听指令获取数据
在网页上抓取数据时遇到某些图表数据无法抓取、元素经常变动或者网页存在广告影响操作,可以考虑使用网页监听获取想要的数据。
操作步骤
① 打开想要抓取数据的网页,在网页上按 F12 打开开发者模式。
② 按 Ctrl + R 重新加载网页。
③ 等待想要的数据加载完成,在网络(Network)标签页激活搜索框,键入想要的数据,回车。
④ 如图
如果无法找到目标数据,尝试换其他可能出现的数据搜索,削减关键词数量,或者依次在请求列表中寻找数据。
⑤ 开始监听数据,获取网页对象-开始监听请求-跳转至新网址(重新加载)-延迟执行(等待加载完成)-获取网页监听结果(获取第一步中得到的URL的监听结果)-停止监听网页请求。
数据可能较多,建议不要打印,先写入文本文件
⑥打开写入的文件,按 Crtl + F 查找是否找到想要的数据。
⑦用指令获取网页请求结果得到的是一个包含目标 url 各项数据的字典,response 内的数据包含在循环项字典的键[“body”] 中,body 是一个字符串,转化成 json 对象后即可对其中的数据进行提取。
为了便于观察结构可以先把 body 的数据取出来在 json.cn 粘贴,会自动转换成便于观察的格式。
粘贴到格式化工具后发现想要的数据在列表 goodsDetailList 中:
于是按以下逻辑取对应的数据:
流程执行结果: