快捷导航
网址如下:
http://www.p2p178.com/invest/invest/list

页面表格中每项信息的下一层链接都写在onclick()里面,而且表格的每一行没有id和class标识,这样只能定位到第一行记录链接,求大神帮忙!

规则名:腾邦创投

网址获取采用Xpath,但只能取第一条记录。
substring-before(substring-after(//*[@id='ulInvestList']/li[position()=1]/@onclick[count(./.)>0],concat('(',"'")),concat("'",')'))
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-5-2 11:13

Fuller 管理员 发表于 2016-5-2 10:09:34 | 显示全部楼层
我刚才加载看了,你用了样例复制规则,每条记录都能抓到,但是有如下问题
1,你定义了一个下级线索,但是在爬虫路线工作台上为下级线索起的主题名与当前一样,这是不对的,下级线索所用的规则应该不一样
2,没有定义翻页规则,应该在爬虫路线工作台上创建一个线索,而且定义成连贯抓取,主题名与当前一样
3,我不赞成写复杂的xpath,只要把onclick的内容抓下来,在excel中很容易构造网址,然后用会员中心的添加线索功能,把构造的网址成批添加到下层规则中。也就是说,当前这个抓取规则不要设置 下层线索

请注意看教程的初级和中级教程,可以先浏览一下左边的目录:http://www.gooseeker.com/tuto/tutorial.html
举报 使用道具
xs_zhang 新手上路 发表于 2016-5-2 11:13:21 | 显示全部楼层
明白了,谢谢大神!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 连续动作:如何把抓到的信息与动作步骤对应
  • 淘宝开店运营十大攻略
  • 深圳市咨询投诉分析
  • 去资源库下载规则,轻松抓数据
  • 下载安装Gooseeker爬虫软件

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-8-21 19:48