|
没错,我发现就算不点击“see more”,也是可以抓到所有回复内容,因为网页html已经将所有的回复加载上去了。
通过自定义xpath来解决,自定义xpath也是能够精准定位采集内容的。
解决方案:
先在xpath搜索框搜索下面这个xpath:
- //*[contains(@class,'commentLayout-reply commentLayout ng-scope')]
复制代码 搜索数为12,这就是这个网页中的12个所有回复所在框,然后将第一个DIV样例映射给“回复”的第一个,第二个DIV样例映射给“回复”的第二个。
再分别对回复人和回复内容自定义xpath,自定义xpath在高级设置里面进行设置。
回复人自定义xpath为:
- .//*[@class='commentLayout-account ng-binding ng-scope']
复制代码 回复内容自定义xpath为:
- .//*[@class='commentLayout-text ng-binding']
复制代码
测试结果所有回复都能抓了,且不重复
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|