网址如下:
http://www.p2p178.com/invest/invest/list

页面表格中每项信息的下一层链接都写在onclick()里面,而且表格的每一行没有id和class标识,这样只能定位到第一行记录链接,求大神帮忙!

规则名:腾邦创投

网址获取采用Xpath,但只能取第一条记录。
substring-before(substring-after(//*[@id='ulInvestList']/li[position()=1]/@onclick[count(./.)>0],concat('(',"'")),concat("'",')'))
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2021-2-3 17:35

沙发
Fuller 管理员 发表于 2016-5-2 10:09:34 | 只看该作者
我刚才加载看了,你用了样例复制规则,每条记录都能抓到,但是有如下问题
1,你定义了一个下级线索,但是在爬虫路线工作台上为下级线索起的主题名与当前一样,这是不对的,下级线索所用的规则应该不一样
2,没有定义翻页规则,应该在爬虫路线工作台上创建一个线索,而且定义成连贯抓取,主题名与当前一样
3,我不赞成写复杂的xpath,只要把onclick的内容抓下来,在excel中很容易构造网址,然后用会员中心的添加线索功能,把构造的网址成批添加到下层规则中。也就是说,当前这个抓取规则不要设置 下层线索

请注意看教程的初级和中级教程,可以先浏览一下左边的目录:http://www.gooseeker.com/tuto/tutorial.html
举报 使用道具
板凳
xs_zhang 新手上路 发表于 2016-5-2 11:13:21 | 只看该作者
明白了,谢谢大神!
举报 使用道具
地板
Fuller 管理员 发表于 2021-2-3 17:35:47 | 只看该作者
这里有一个更加详细的例子:https://www.gooseeker.com/doc/thread-18350-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 03:52