主题名 深圳_3
规则编号:规则_1

问题一:房号列表与”房间列表”的整理箱中样例复制管理  启用了,报错
http://www.gooseeker.com/doc/article-151-1.html  这个也试过  麻烦帮我好好看一下




举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-11-29 18:33

沙发
Fuller 管理员 发表于 2016-11-29 16:52:52 | 只看该作者
规则加载不了,你说说想怎样采集?
举报 使用道具
板凳
HJLing 版主 发表于 2016-11-29 17:00:39 | 只看该作者

做嵌套整理箱  给tr和td分别做样例复制 再来采集房号和链接 链接需要写自定义xpath

举报 使用道具
地板
zhuohui1987 金牌会员 发表于 2016-11-29 17:03:44 | 只看该作者
一种做法
1  建立整理箱----座位号列表(样例复制管理)    【座位--内容映射、座位链接-内容映射并内容关键和下级线索】
2.包容建立  ”房号列表‘’(样例复制管理)  【房号链接----内容映射并内容关键和下级线索】
报错误  :xandyThe node No. 3 is not a child of node No. 0
一种做法
建立整理箱----座位号列表(样例复制管理)    【座位--内容映射、座位链接-内容映射并内容关键和下级线索  房号链接----内容映射并内容关键和下级线索】
报错:无法找到相邻DOM节点
举报 使用道具
5#
zhuohui1987 金牌会员 发表于 2016-11-29 17:33:33 | 只看该作者
座位  座位链接  房号链接    三个字段呢
举报 使用道具
6#
Fuller 管理员 发表于 2016-11-29 17:40:48 | 只看该作者
zhuohui1987 发表于 2016-11-29 17:33
座位  座位链接  房号链接    三个字段呢

我认为应该这样规划:
首先,你先不用管A座,B座或者其它,这些对应于不同页面,只管做一个座的规则
其次,建立嵌套的整理箱,外层的样例复制是在楼层间抓取多样例,内层的样例复制是在某个楼层内部抓取房号

至于哪一座,A座网址:
  1. http://ris.szfdc.gov.cn/bol/building.aspx?id=28927&Branch=A%d7%f9&isBlock=ys
复制代码
B座网址:
  1. http://ris.szfdc.gov.cn/bol/building.aspx?id=28927&Branch=B%d7%f9&isBlock=ys
复制代码

观察一下,他们的就是有一个url参数不一样,要么构造出来网址,要么做一个层级抓取 ,专门多做一层规则采集网址。





举报 使用道具
7#
scraper 论坛元老 发表于 2016-11-29 17:42:45 | 只看该作者
zhuohui1987 发表于 2016-11-29 17:33
座位  座位链接  房号链接    三个字段呢

那你就补上呗 要采什么就写上什么

举报 使用道具
8#
Fuller 管理员 发表于 2016-11-29 18:33:58 | 只看该作者
scraper 发表于 2016-11-29 17:42
那你就补上呗 要采什么就写上什么

其实关键还是采集规划问题,这是三个层面的语义,不要揉在一起,像我6楼的回答那样分成两级规则就好采集了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 16:59