11#
umsung 高级会员 发表于 2017-11-15 15:52:34 | 只看该作者
那就是没生成下级线索给二级规则,运行第二级规则的时候你只选择了一条线索吗?还是第二级规则只有一条线索,统计第二级规则的线索看看有没有生成,如果没有生成就应该是你的主题名没对应上。重新做一下第二级规则。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
12#
DSCTDC10 初级会员 发表于 2017-11-16 16:59:58 | 只看该作者
本帖最后由 DSCTDC10 于 2017-11-16 17:01 编辑

我重建了兩個層級還是一樣的問題,確定是有勾跡到第二級...
問題會不會是因為國外的網站雖然我的打數機可抓到數據,但由中國的Server無法訪問,就無法產生下級線索 ?有方法可以解決嗎? 我有試另外一個中國可以訪問的網站一樣的操作步驟是成功的~~
举报 使用道具
13#
umsung 高级会员 发表于 2017-11-16 17:14:18 | 只看该作者
本帖最后由 umsung 于 2017-11-17 09:34 编辑

一般都可以抓取的,很多国外需要翻墙的网站都可以正常抓取。如果爬完一级规则之后,你的二级规则没有生成线索那应该是规则问题。直接用集搜客浏览器试试看能不能打开线索网址。另外可以直接把第一级规则抓取下来的链接,通过excel补全,再批量导入到二级规则,在运行第二级规则应该可以抓取。
举报 使用道具
14#
Fuller 管理员 发表于 2017-11-16 23:13:08 | 只看该作者
DSCTDC10 发表于 2017-11-16 16:59
我重建了兩個層級還是一樣的問題,確定是有勾跡到第二級...
問題會不會是因為國外的網站雖然我的打數機可抓 ...

你的抓取规则我测试了,在爬虫本地生成的日志文件中确实记录了通信超时。但是为什么偏偏这个网站出现通信超时,这个问题需要我们的开发团队做进一步诊断


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
15#
Fuller 管理员 发表于 2017-11-16 23:17:56 | 只看该作者
DSCTDC10 发表于 2017-11-16 16:59
我重建了兩個層級還是一樣的問題,確定是有勾跡到第二級...
問題會不會是因為國外的網站雖然我的打數機可抓 ...

在开发人员找到明确原因之前,有一个手工方法可以导入第二级线索,步骤是
1,把第一级的采集结果导入到excel
2,用excel的字符串串接函数,把抓取到的第二级url补全成完整的url,因为抓到的url是相对网址,没有从http://开头
3,把所有补全的网址拷贝到一个新excel中,放在一列中
4,使用导入线索的方法,给第二级规则导入线索。参看《如何管理规则的线索
举报 使用道具
16#
DSCTDC10 初级会员 发表于 2017-11-17 15:18:28 | 只看该作者
好的,謝謝您們的支持 ~~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-10 21:36