本帖最后由 shyc126 于 2017-3-16 15:51 编辑

http://www.tianyancha.com/company/4291266
在这个企业详情的页面中,股东信息、对外投资信息等等都有内部分页,如下图


我的规则是这样的



这个时候第一页和第二页都能够正常抓取,但是就是不会停止,一直在抓取第二页的内容,这个问题不知道该怎么解决?
我的规则名是tyc_search_result_detail_gdxx


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-3-16 20:58

沙发
ym 版主 发表于 2017-3-16 16:25:42 | 只看该作者
重复采集第二页是因为>依然存在网页上,相对线索的点击依然会定位到它,所以就会重复点击和采集。

解决方法:
这个记号>到了最后一页,class就会改变,就能判断到停止点击的情况,所以你改为记号线索就能正常翻页了
举报 使用道具
板凳
shyc126 中级会员 发表于 2017-3-16 16:43:30 | 只看该作者
ym 发表于 2017-3-16 16:25
重复采集第二页是因为>依然存在网页上,相对线索的点击依然会定位到它,所以就会重复点击和采集。

解决方 ...

我对比了一下,截图如下

我把规则改成下图所示

但这样抓取的时候,只会一直不停的去抓第一页,因为标记打在了li标签上,不在a上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
shyc126 中级会员 发表于 2017-3-16 16:52:13 | 只看该作者
ym 发表于 2017-3-16 16:25
重复采集第二页是因为>依然存在网页上,相对线索的点击依然会定位到它,所以就会重复点击和采集。

解决方 ...

改成这样

也是一直不停的抓取第一页的内容

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
ym 版主 发表于 2017-3-16 17:31:55 | 只看该作者
你这个网页本来翻页就有点问题,我手工点击翻页,还是显示在第一页里,要多点击几次才会加载出第二页的信息
举报 使用道具
6#
ym 版主 发表于 2017-3-16 18:00:13 | 只看该作者
解决方法:
删掉爬虫路线的翻页设置,改为设置连续动作的点击,写xpath要定位到唯一的翻页按钮节点,另外,高级设置里不勾模拟点击,就可以正常翻页采集
  1. //*[@id='nav-main-holderCount']/following-sibling::*[1]//*[@class='pagination-sm pagination ng-isolate-scope ng-valid']//*[@class='pagination-next ng-scope']/a
复制代码

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
shyc126 中级会员 发表于 2017-3-16 20:58:11 | 只看该作者
本帖最后由 shyc126 于 2017-3-17 13:08 编辑
ym 发表于 2017-3-16 18:00
解决方法:
删掉爬虫路线的翻页设置,改为设置连续动作的点击,写xpath要定位到唯一的翻页按钮节点,另外, ...

非常感谢,但这种方式不管在高级设置中的“重复次数”填几都只能抓2页,像下面这个页面
http://www.tianyancha.com/company/29659645
就不能抓全,不知道还有哪儿需要设置才能抓全数据?

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-4 23:55