11#
tesla0078 高级会员 发表于 2022-10-19 11:47:35 | 只看该作者
gz51837844 发表于 2022-10-19 11:19
我测试了一下,在爬虫群模式下,你描述的问题确实存在。这个问题我会转交相关技术做进一步测试。

目前你 ...

单搜爬取,我们测试任务1也是正常的(一般也是先各单任务测试,单任务正常后,再加入爬虫群进行任务串联),是因为没有调动任务2进行采集。单个的任务1启动,无法得到最终的需要数据(任务2采集的数据才是最终需要的,其他的都是中间数据)。
爬虫群模式下,任务1弹出新链接界面后,随后会接着调动任务2进行数据采集,1个链接采集完后,任务就会出现“结束状态”窗口,这样就会随着任务1调动的新链接界面越来越多,就会出现无数的“结束状态”窗口,最终电脑会死机。

期望的正常状态应为:在爬虫群模式下,窗口状态应以现有单搜的这种工作窗口切换状态进行工作(即:弹出新链接1,数据1采集完,新链接1关闭,弹出新链接2,数据2采集完,新链接2关闭,不停循环,直至没有新链接),完成任务执行,得到最终数据。

举报 使用道具
12#
gz51837844 管理员 发表于 2022-10-19 11:54:58 | 只看该作者
tesla0078 发表于 2022-10-19 11:47
单搜爬取,我们测试任务1也是正常的(一般也是先各单任务测试,单任务正常后,再加入爬虫群进行任务串联 ...

单搜抓取,也会抓取任务2的,执行流程就是你描述的:即:弹出新链接1,数据1采集完,新链接1关闭,弹出新链接2,数据2采集完,新链接2关闭,不停循环,直至没有新链接
并且会自动关闭已结束的任务2窗口。你可以试试



举报 使用道具
13#
gz51837844 管理员 发表于 2022-10-19 11:59:56 | 只看该作者
执行完成后,需要点击下“导出excel”,这样就会把任务1和任务2的结果入库:

举报 使用道具
14#
tesla0078 高级会员 发表于 2022-10-19 12:26:24 | 只看该作者
gz51837844 发表于 2022-10-19 11:59
执行完成后,需要点击下“导出excel”,这样就会把任务1和任务2的结果入库:

...

单搜测试了,任务2的数据库中没数据(专门找的符合采集条件的链接,数据是应该有的)。应该是任务2没被调用,任务1的“结束状态”窗口中也没有任务2相关的记录信息感觉也能印证这点。



举报 使用道具
15#
gz51837844 管理员 发表于 2022-10-19 14:33:48 | 只看该作者
tesla0078 发表于 2022-10-19 12:26
单搜测试了,任务2的数据库中没数据(专门找的符合采集条件的链接,数据是应该有的)。应该是任务2没被调 ...

我把你的2个规则另存了,单搜可以看到结果。
你按下面的检查下:
1. 把这条网址线索添加到第一级规则:https://tzlikelai.1688.com/page/offerlist.htm , 启动单搜采集第一级规则
2. 观察数据管家有没有加载出来第一级的页面
3. 观察数据管家随后有没有弹开一个新的窗口,加载第二级的页面

4. 。。。。。。
5. 采集结束后,先不点击“导出excel”。到电脑的文件夹下,看看第二级任务的目录下,有没有新生成的xml文件

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-10 21:13