我想抓取1617赛季西甲的38轮的对阵,计划的采集流程图是点击第一轮,采集对阵信息,完成后,采集第二轮,直至38轮

进入资料库后,网站会自动导航到最新的一轮(第33轮),而不是第一轮,我不知道是不是这个原因导致翻页不成功。




规则和爬虫线路我都依照教程进行了设置









最后点击测试输出的结果仅仅只有第33轮比赛的对阵,就是打开网址后进入的那一页(第33轮)的信息,而不是预期的第一轮到第三十八轮的所有对阵。




希望好心人能指出问题所在,万分感激。
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-4-21 09:38

沙发
suicideking1989 新手上路 发表于 2017-4-20 02:35:42 | 只看该作者
根据相对线索翻页的教程,我换我爱我家的网站来试,还是翻页不成功,我肯定有地方没做对,望指点
举报 使用道具
板凳
Fuller 管理员 发表于 2017-4-20 09:32:42 | 只看该作者


可以看到两个相对线索的class完全一样,分不出第一个和第二个来的,先要观察一下,颜色或者样式有没有区别,有区别才能用作相对线索映射
举报 使用道具
地板
Fuller 管理员 发表于 2017-4-20 09:37:45 | 只看该作者
其实是你选择的样本页面不对



选中第一个后再做规则,选中第一个以后,他的颜色就是橙色的了,那么在网页上有一个特殊的id表示的,点击“定位选项”,设定成“偏好id”,就会用上这个id
举报 使用道具
5#
suicideking1989 新手上路 发表于 2017-4-21 00:53:21 | 只看该作者
Fuller 发表于 2017-4-20 09:32
可以看到两个相对线索的class完全一样,分不出第一个和第二个来的,先要观察一下,颜色或者样式有没有区 ...

你好 很感谢你的回复 我有几个不明白的地方,因为希望尽可能说清楚我的问题,所以字比较多,希望谅解。

问题1 从你贴的这张图片上面看,第一轮那个图标对应的定位编号是3652,第二轮图标对应的定位编号是3660,为什么我在我的电脑上看,第一轮图标对应的定位编号确是3685?


问题2,从你贴出的第二张图当中,我隐约明白你的意思,刚加载网址,slectname会出现在第三十三轮的图标对应的id那一列,你是要求slectname出现在第一轮图标对应的那个id的位置吧,是这个意思吗?
如果是的话,这个操作是怎么完成的?我自己尝试的操作是根据低位编号左键单击选中那一行,然后在工作台中点定位选项,再选偏好id,可是id那一列并没有出现在id那一列。


问题3,那个selectname出现在33轮图标对应的id处,假设我没有将selectname改到第一轮图标对应的id处,我根据http://www.jisouke.com/doc/article-149-1.html这个教程上面说的步骤,我从33轮开始翻页,应该也是可以的,我试了几次,都没有翻页成功,输出的结果只有33轮的数据。教程上面说先要在线索定位当中定位线索一,我选的是TBODY,定位编号3669这行来操作(如下面截图所示),这个步骤我做对了吗?


问题4,我看了一看我我爱我家的网站http://sh.5i5j.com/rent/xuhui/p4,按理说slectname应该会出现在第一页图标对应的id那里,可是整个网页所有的定位编号id的那一列都没有出现selectname。是不是并非所有的网页都会出现selectname这一情况?
在没有的情况下,如要使用相对线索,是不是要自己先设置好?

举报 使用道具
6#
Fuller 管理员 发表于 2017-4-21 09:21:43 | 只看该作者
suicideking1989 发表于 2017-4-21 00:53
你好 很感谢你的回复 我有几个不明白的地方,因为希望尽可能说清楚我的问题,所以字比较多,希望谅解。

...

问题1的答案:第一轮可能是过往的内容,而一打开网页的时候,显示的当前一轮的内容,所以,做规则之前,先要点击第一轮,然后
1,选择菜单 规则-》刷新页面结构
2,开始做规则

下一次重新加载规则的时候,不要急着“后续分析”,而是点击了第一轮以后再后续分析
举报 使用道具
7#
Fuller 管理员 发表于 2017-4-21 09:22:35 | 只看该作者
问题2的答案在回答问题1的时候已经说了
举报 使用道具
8#
Fuller 管理员 发表于 2017-4-21 09:37:57 | 只看该作者
问题3的答案:

看来这个网页需要两个规则,因为轮次1-38是放在两个TR中的,如果做线索定位映射的时候,选择TR,那么需要两个规则,一个翻第一条的轮次,另一个翻第二条的轮次。

做线索定位映射的时候,即使选择TR的父节点TBODY,也还是需要两个规则,因为规则中TR的编号使用position()函数定死的,除非自己手工修改规则,修改成不指定tr编号的
举报 使用道具
9#
Fuller 管理员 发表于 2017-4-21 09:38:50 | 只看该作者
问题4的答案是:每个网页的结构不一样,他们不一定使用class或者id,需要分别对待
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-5 07:41