如果有个网站, 第一级的翻页, 或是第二级的公司下级点击, 都是javascript的跳转, 看教程都是建议使用连续点击的做法。
但是如果连续动作里指向的主题名如果只能有一个,应该如何处理比较好?
流程如下:
在第一级时点击指向第二级, 抓取完第二级的数据, 需要在使用点击回到第一级
但是此时第一级重载, (如此则变得没有一、二级的差别) xpath节点重设, 又会重复采集相同的节点
请问这种情况怎么做呢? 谢谢大家


举报 使用道具
| 回复

共 25 个关于本帖的回复 最后回复于 2016-10-19 15:05

沙发
ym 版主 发表于 2016-9-6 14:13:48 | 只看该作者
把两级的主题名、点击内容的截图也发出来
举报 使用道具
板凳
ShelleyWu 初级会员 发表于 2016-9-6 16:42:08 | 只看该作者
本帖最后由 ShelleyWu 于 2016-9-6 16:57 编辑

http://www.koreamold.com/eng/suppliers/company/main.asp
第一层主题: L1_Sim_Click
第二层主题: L2_Sim_Click

步骤1(点击公司名): 第一层做了点击公司, 到第二层去抓取公司细节资料。(L1_Sim_Click -> L2_Sim_Click)

步骤2(点击List返回): 进入第二层主题并采集数据, 在第二层点击List回到第一层, 想要再点击第二个公司。(L2_Sim_Click -> ???)
这个步骤的问题是, 如果第二层指定的目标主题名是L1_Sim_Click,回到第一层会重头点击, 如果改为指定L2_Sim_Click, 会报错, 但第一页可以执行下去。

步骤3(翻页): 重复10次步骤1+步骤2, 点击下一页(2, 3, ...next), 这个一直没成功, 老是跳转不过去, 试过爬虫和连续动作都没能成。而且, 如果使用连续动作, 分页目标主题名应为第一个, 但是就和点击公司的规则矛盾了呀 (L1_Sim_Click -> L1_Sim_Click, 翻页未能成功)
点击下一页包含1,2,3,…一直到next, 每翻一页点一次, 我试了爬虫的相对线索, 在只考虑第一层的时候有成功, 相对线索定位再1跟next。但是分层级采数据就会失败

主要教程好多都是针对有下级线索的阿, 像这种只有javascript的跳转来跳转去, 连续点击不知道能不能做到这么复杂的动作, 如果不行, 可以用啥取代呢

step1.png (23.53 KB, 下载次数: 841)

步骤1

步骤1

step2.png (27.34 KB, 下载次数: 802)

步骤2

步骤2

step3.png (24.74 KB, 下载次数: 825)

步骤3

步骤3
举报 使用道具
地板
Fuller 管理员 发表于 2016-9-6 20:48:17 | 只看该作者
ShelleyWu 发表于 2016-9-6 16:42
http://www.koreamold.com/eng/suppliers/company/main.asp 第一层主题: L1_Sim_Click第二层主题: L2_Sim_C ...

这个问题明天开发人员检查一下,根据页面结构来看,你规划的连续动作是正确的
举报 使用道具
5#
ShelleyWu 初级会员 发表于 2016-9-7 14:24:29 | 只看该作者
Fuller 发表于 2016-9-6 20:48
这个问题明天开发人员检查一下,根据页面结构来看,你规划的连续动作是正确的 ...

好的, 期待您的回复。
主要是希望确认在javascript页面的跳转上是否能实现, 包含层级跳转和翻页等等动作。
谢谢你们了。
举报 使用道具
6#
ShelleyWu 初级会员 发表于 2016-9-9 08:42:57 | 只看该作者
请问这个问题有解了吗?
谢谢
举报 使用道具
7#
Fuller 管理员 发表于 2016-9-9 09:29:44 | 只看该作者
ShelleyWu 发表于 2016-9-9 08:42
请问这个问题有解了吗?
谢谢

这会那个网站好像出问题了,等会我再测试一下
举报 使用道具
8#
ShelleyWu 初级会员 发表于 2016-9-10 16:39:29 | 只看该作者
您好
麻烦您有空在帮忙看下
谢谢
举报 使用道具
9#
Fuller 管理员 发表于 2016-9-10 16:59:56 | 只看该作者
ShelleyWu 发表于 2016-9-10 16:39
您好
麻烦您有空在帮忙看下
谢谢

在第二级L2_Sim_Click,连续动作的主题名应该是L1_Sim_Click,让他回去。

但是我发现了一个问题,回去以后总是点击第一个。这个应该是程序逻辑的问题,我要思考一下怎么解决
举报 使用道具
10#
ray_zhurui 中级会员 发表于 2016-9-10 18:25:25 | 只看该作者
这种结构的网页不是应该在主题A采集所有href然后制定下级线索给主题B,然后主题B里整理箱里采集需要字段就可以了吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 01:21