网站结构相差不多,有个类似的规则,怎么让他复用起来。
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-4-13 22:02

沙发
shengchengx 金牌会员 发表于 2017-4-13 21:40:19 | 只看该作者
如果是结构差不多的话,可以在谋数台上加载类似的规则,进行修改就好了
举报 使用道具
板凳
Fuller 管理员 发表于 2017-4-13 22:02:59 | 只看该作者
“差不多”这个词很笼统,做决定的时候要慎重。因为GS网络爬虫是精确定位的,如果定位不准就会放弃采集,所以,不会有采集到“差不多” 的数据,而是要么采集到,要么没有采集到。

针对你的问题,应该这样判断
1,如果这些网址基本上类似,比如,他们的网站名和目录都一样,就是网页的名字不一样,一般来说,他们的网页结构是基本相同的。这种情况,就可以想办法让采集规则适应这些网页。
2,如果它们的目录不一样,甚至连网站都不一样,即使看起来网页差不多。也不应该用同一个规则。

但是可以参照一个规则,制定另一个规则。方法是:
1,先把原来的规则加载到谋数台上,
2,在地址输入栏输入新的网址,回车
3,等网页加载完后,选择菜单-规则-刷新页面结构,再选择菜单 分析页面
4,这时应该会提示有些抓取内容定位不上,那需要为他们做内容映射
5,所有抓取内容映射完以后,修改主题名,点击存规则。就会为新网页做好了规则。省了不少功夫。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-12 21:00