集搜客GooSeeker网络爬虫

标题: 球探网比分抓取 翻页不成功 [打印本页]

作者: suicideking1989    时间: 2017-4-19 23:05
标题: 球探网比分抓取 翻页不成功
我想抓取1617赛季西甲的38轮的对阵,计划的采集流程图是点击第一轮,采集对阵信息,完成后,采集第二轮,直至38轮

进入资料库后,网站会自动导航到最新的一轮(第33轮),而不是第一轮,我不知道是不是这个原因导致翻页不成功。


[attach]6211[/attach]

规则和爬虫线路我都依照教程进行了设置

[attach]6215[/attach]

[attach]6217[/attach]

[attach]6218[/attach]

[attach]6219[/attach]

最后点击测试输出的结果仅仅只有第33轮比赛的对阵,就是打开网址后进入的那一页(第33轮)的信息,而不是预期的第一轮到第三十八轮的所有对阵。
[attach]6220[/attach]

[attach]6220[/attach]

希望好心人能指出问题所在,万分感激。

作者: suicideking1989    时间: 2017-4-20 02:35
根据相对线索翻页的教程,我换我爱我家的网站来试,还是翻页不成功,我肯定有地方没做对,望指点
作者: Fuller    时间: 2017-4-20 09:32
[attach]6221[/attach]

可以看到两个相对线索的class完全一样,分不出第一个和第二个来的,先要观察一下,颜色或者样式有没有区别,有区别才能用作相对线索映射

作者: Fuller    时间: 2017-4-20 09:37
其实是你选择的样本页面不对

[attach]6222[/attach]

选中第一个后再做规则,选中第一个以后,他的颜色就是橙色的了,那么在网页上有一个特殊的id表示的,点击“定位选项”,设定成“偏好id”,就会用上这个id

作者: suicideking1989    时间: 2017-4-21 00:53
Fuller 发表于 2017-4-20 09:32
可以看到两个相对线索的class完全一样,分不出第一个和第二个来的,先要观察一下,颜色或者样式有没有区 ...

你好 很感谢你的回复 我有几个不明白的地方,因为希望尽可能说清楚我的问题,所以字比较多,希望谅解。
[attach]6226[/attach]
问题1 从你贴的这张图片上面看,第一轮那个图标对应的定位编号是3652,第二轮图标对应的定位编号是3660,为什么我在我的电脑上看,第一轮图标对应的定位编号确是3685?
[attach]6227[/attach]

问题2,从你贴出的第二张图当中,我隐约明白你的意思,刚加载网址,slectname会出现在第三十三轮的图标对应的id那一列,你是要求slectname出现在第一轮图标对应的那个id的位置吧,是这个意思吗?
如果是的话,这个操作是怎么完成的?我自己尝试的操作是根据低位编号左键单击选中那一行,然后在工作台中点定位选项,再选偏好id,可是id那一列并没有出现在id那一列。
[attach]6228[/attach]

问题3,那个selectname出现在33轮图标对应的id处,假设我没有将selectname改到第一轮图标对应的id处,我根据http://www.jisouke.com/doc/article-149-1.html这个教程上面说的步骤,我从33轮开始翻页,应该也是可以的,我试了几次,都没有翻页成功,输出的结果只有33轮的数据。教程上面说先要在线索定位当中定位线索一,我选的是TBODY,定位编号3669这行来操作(如下面截图所示),这个步骤我做对了吗?
[attach]6229[/attach]

问题4,我看了一看我我爱我家的网站http://sh.5i5j.com/rent/xuhui/p4,按理说slectname应该会出现在第一页图标对应的id那里,可是整个网页所有的定位编号id的那一列都没有出现selectname。是不是并非所有的网页都会出现selectname这一情况?
在没有的情况下,如要使用相对线索,是不是要自己先设置好?
[attach]6230[/attach]

作者: Fuller    时间: 2017-4-21 09:21
suicideking1989 发表于 2017-4-21 00:53
你好 很感谢你的回复 我有几个不明白的地方,因为希望尽可能说清楚我的问题,所以字比较多,希望谅解。

...

问题1的答案:第一轮可能是过往的内容,而一打开网页的时候,显示的当前一轮的内容,所以,做规则之前,先要点击第一轮,然后
1,选择菜单 规则-》刷新页面结构
2,开始做规则

下一次重新加载规则的时候,不要急着“后续分析”,而是点击了第一轮以后再后续分析

作者: Fuller    时间: 2017-4-21 09:22
问题2的答案在回答问题1的时候已经说了
作者: Fuller    时间: 2017-4-21 09:37
问题3的答案:

看来这个网页需要两个规则,因为轮次1-38是放在两个TR中的,如果做线索定位映射的时候,选择TR,那么需要两个规则,一个翻第一条的轮次,另一个翻第二条的轮次。

做线索定位映射的时候,即使选择TR的父节点TBODY,也还是需要两个规则,因为规则中TR的编号使用position()函数定死的,除非自己手工修改规则,修改成不指定tr编号的

作者: Fuller    时间: 2017-4-21 09:38
问题4的答案是:每个网页的结构不一样,他们不一定使用class或者id,需要分别对待




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2