11#
Matthew123 初级会员 发表于 2017-11-7 15:30:30 | 只看该作者
Fuller 发表于 2017-11-2 22:42
像我这样:不用文本记号,而是用代表翻页的那个A的class作为记号。

改了还是有问题,按照这个规则:neglected3,爬去10页内容有重复页还有遗漏页。http://journals.plos.org/plosntds/search?filterJournals=PLoSNTD&resultsPerPage=60&q=(author_affiliate%3Abrazil)+AND%20publication_date%3A%5B2007-01-01T00%3A00%3A00Z%20TO%202016-12-31T23%3A59%3A59Z%5D&page=1
举报 使用道具
12#
bowieD 金牌会员 发表于 2017-11-7 16:16:06 | 只看该作者
本帖最后由 bowieD 于 2017-11-7 16:19 编辑

1,规则没有任何问题,我测试了没有遗漏。
2,这个网页最多就10页,最后一页会重复三次,是正常现象,对结果文件做去重复处理就可以了。
3,有问题请自己先仔细检查一遍,这个网站加载比较慢,把延迟抓取的时间调大一点,在ds打数机的配置里面设置。

举报 使用道具
13#
Matthew123 初级会员 发表于 2017-11-7 16:38:25 | 只看该作者
bowieD 发表于 2017-11-7 16:16
1,规则没有任何问题,我测试了没有遗漏。
2,这个网页最多就10页,最后一页会重复三次,是正常现象,对结 ...

谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-26 11:11