快捷导航
希望只爬取网页内的文本游记内容,不要图片,但是无法选取全部文字,只能一段一段选中,会被图片和行间距隔断,请问要怎么做呢?

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2020-1-11 15:13

Fuller 管理员 发表于 2020-1-11 08:06:03 | 显示全部楼层
选中包含所有文字的网页区域,映射给一个抓取内容,给这个抓取内容设置高级设置,里面有纯文本选项,勾上以后就只有文本内容
举报 使用道具
Fuller 管理员 发表于 2020-1-11 08:18:25 | 显示全部楼层
映射一个网页区域的方法参考这篇教程:https://www.gooseeker.com/doc/article-420-1.html
高级设置参考这篇文章,这篇文章虽然采集网页片段的,但是勾上“纯文本”就是采集纯文本内容:https://www.gooseeker.com/doc/article-354-1.html
举报 使用道具
aycf8023 初级会员 发表于 2020-1-11 11:55:51 | 显示全部楼层
Fuller 发表于 2020-1-11 08:18
映射一个网页区域的方法参考这篇教程:https://www.gooseeker.com/doc/article-420-1.html
高级设置参考这 ...

请问用MS谋数台分析后续分析的输出框显示空白,但是抓取任务显示抓取超时,抓取规则不合适或者抓取时间设置太短怎么解决,抓取时间已经设置为500
举报 使用道具
aycf8023 初级会员 发表于 2020-1-11 11:56:17 | 显示全部楼层
Fuller 发表于 2020-1-11 08:18
映射一个网页区域的方法参考这篇教程:https://www.gooseeker.com/doc/article-420-1.html
高级设置参考这 ...

请问用MS谋数台分析后续分析的输出框显示空白,但是抓取任务显示抓取超时,抓取规则不合适或者抓取时间设置太短怎么解决,抓取时间已经设置为500
举报 使用道具
Fuller 管理员 发表于 2020-1-11 12:26:19 | 显示全部楼层
aycf8023 发表于 2020-1-11 11:56
请问用MS谋数台分析后续分析的输出框显示空白,但是抓取任务显示抓取超时,抓取规则不合适或者抓取时间设 ...

你可以把规则名发出来,管理员加载分析一下失败原因。

规则如果没有使用定位标志映射,就很容易失败。使用定位标志映射的教程在这里:https://www.gooseeker.com/doc/article-344-1.html
举报 使用道具
aycf8023 初级会员 发表于 2020-1-11 13:17:31 | 显示全部楼层
Fuller 发表于 2020-1-11 12:26
你可以把规则名发出来,管理员加载分析一下失败原因。

规则如果没有使用定位标志映射,就很容易失败。使 ...

马蜂窝厦门美食第一页和马蜂窝厦门美食第一页第二级
举报 使用道具
Fuller 管理员 发表于 2020-1-11 15:13:06 | 显示全部楼层
aycf8023 发表于 2020-1-11 13:17
马蜂窝厦门美食第一页和马蜂窝厦门美食第一页第二级

范围20200111151029.png

我看到你是用编号是891的这个节点做内容映射,范围不够大,那么就用更上级的节点做内容映射。另外勾上“纯文本内容”可以避免把网页上的script代码也采集下来。

这个网页好长,DS打数机的自动滚屏打开,菜单 配置-》滚屏参数,把滚屏次数这是大一些,比如,20,或者更大。如果滚屏会超过一分钟,那么把超时时长也设置大一些。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 数据管家和集搜客网络爬虫超出配额是怎么回
  • 用GooSeeker数据管家能采集微博内容吗?
  • 怎样使用GooSeeker数据管家启动采集任务?
  • GooSeeker数据管家软件使用指导
  • 如何使用集搜客分词平台做社会网络图分析?

热门用户

GMT+8, 2020-9-20 08:29