一个网站,有很多列表(很多的题目),每个题目点进去是一篇文章,我设置后再爬文章,有很多匹配失败的,我觉得可能是不同文章的结构不同,有的是长篇文字,有的是短篇,还有的是一句话,有的带附件,有的不带附件,有的附件是一个excel后者word的链接,有的附件是一篇小短文,还需要爬文章中右下角的日期,有的文章有日期,有的没有,有的文章是一个大表格,有的文章即有文字又有表格,这种情况怎么办呐,求大神知道,感激不尽,特别着急!而且是不是一出现错误爬的就会慢一些呀?!感激感激!
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2016-11-15 11:26

沙发
有正事的小青年 初级会员 发表于 2016-8-30 11:43:23 | 只看该作者
我想试试采集同意网站的不同网页结构信息试一试,可是按照提示,说要先刷新页面,但是我点击后下面的浏览器没变化,也没提示我任何信息,比如说刷新成功,再点击页面分析,就说找不到页面结构~求大神指导~
举报 使用道具
板凳
有正事的小青年 初级会员 发表于 2016-8-30 11:45:31 | 只看该作者
有的文章还图片。。。。大神求回复~
举报 使用道具
地板
Fuller 管理员 发表于 2016-8-30 11:52:00 | 只看该作者
有正事的小青年 发表于 2016-8-30 11:43
我想试试采集同意网站的不同网页结构信息试一试,可是按照提示,说要先刷新页面,但是我点击后下面的浏览器 ...

不是刷新页面,而是等网页内容都显示出来以后,选择菜单“文件"->"刷新网页结构”
举报 使用道具
5#
有正事的小青年 初级会员 发表于 2016-8-30 12:09:27 | 只看该作者
把错误的挑了出来,工具-按线索号搜-出现了找不到DOM节点。重新加载抓取规则或者刷新页面结构。可联系管理员协助解决(DomTreeManager::GetNodeRow)
举报 使用道具
6#
Fuller 管理员 发表于 2016-8-30 13:54:59 | 只看该作者
有正事的小青年 发表于 2016-8-30 12:09
把错误的挑了出来,工具-按线索号搜-出现了找不到DOM节点。重新加载抓取规则或者刷新页面结构。可联系管理 ...

这是比较麻烦的错误,主题名是什么?
举报 使用道具
7#
有正事的小青年 初级会员 发表于 2016-8-31 10:56:10 | 只看该作者
Fuller 发表于 2016-8-30 13:54
这是比较麻烦的错误,主题名是什么?

给您私信了
举报 使用道具
8#
有正事的小青年 初级会员 发表于 2016-8-31 10:57:30 | 只看该作者
Fuller 发表于 2016-8-30 11:52
不是刷新页面,而是等网页内容都显示出来以后,选择菜单“文件"->"刷新网页结构” ...

我就是文件-刷新页面这个操作,没反应
举报 使用道具
9#
有正事的小青年 初级会员 发表于 2016-8-31 10:58:38 | 只看该作者
本帖最后由 有正事的小青年 于 2016-9-1 17:20 编辑

举报 使用道具
10#
Fuller 管理员 发表于 2016-8-31 12:09:28 | 只看该作者

加载规则,对规则做如下修改:

1)如上图,使用定位标志映射,让规则更有适应力

2)主题分类:有时候没有,那马就不要够“关键内容”
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 13:33