微博爬取官方微博中,下一页用的记号线索,第一次定制规则好使,再添加类似网址,下一页就定位不准了,应该怎么定位
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-10-30 17:15

沙发
Fuller 管理员 发表于 2018-10-30 10:37:55 | 只看该作者
你定义的规则的主题名是什么?
举报 使用道具
板凳
zhenghy 中级会员 发表于 2018-10-30 10:44:33 | 只看该作者
微博_博主1
举报 使用道具
地板
Fuller 管理员 发表于 2018-10-30 11:27:48 | 只看该作者
我看了你的规则,没有问题,另一个不适应的网页网址是什么?

另外,因为博主主页很长,DS打数机一定要打开自动滚屏,选择菜单 配置-》自动滚屏,把滚屏参数设置成>0的数字,比如,10
举报 使用道具
5#
zhenghy 中级会员 发表于 2018-10-30 13:56:18 | 只看该作者
https://weibo.com/xiaohuanmao?is ... &page=3#feedtop,比如这个网址,再次添加就不行了
举报 使用道具
6#
Fuller 管理员 发表于 2018-10-30 17:15:45 | 只看该作者
可以这样分析错误原因,
第一步:加载规则
第二步:在地址栏中输入第二个网址,等它加载出来,然后滚屏,一直滚到底,等看到翻页区后执行下面的步骤
第三步:选择菜单 规则-》刷新页面结构
第四步,选择菜单 规则-》分析页面
就能看到你定义的规则对第二个网址是不适应的。其实你只采集了一个网址,应该很容易做规则。我建议点击按钮“定位”修改成偏好class
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-14 23:33