第一个:很多人喜欢抓微博来练手,资源区里也有很多朋友发布的规则。来提一个小细节问题,假设要抓取微博主第一页的博文,微博开放140字后是可以写很长的,那么长博文在界面显示效果是如图这样的。后面有个“展开全文”的链接,如果直接定位采集如图的博文的话会显示“(上略)M档+手动对焦...展开全文c”,采集到的是不完整的博文内容。GooSeeker的“微博采集工具箱”也是存在这种问题的。
所以我当时是想要解决这个问题,直接采集到完整的博文内容。我们假设只采集博主的第一页微博,第一页微博有2条含有“展开全文“的长微博。
GooSeeker这边能够达到点击效果的是”爬虫路线“和”连续动作“,流程就变成了主题1--滚屏加连续动作点击”展开全文“,执行到连续动作点击后执行主体2--抓取数据。
因为主页有2处需要点击的”展开全文“,所以最后得到了2份抓取的xml文件,只有第2份xml才是抓取到的全部长博文,第一份xml是不能使用的。虽然最后可以通过Excel合并去重复功能得到一些近似完美的数据,但是这种流程仍然不是特别的完美。
理想的流程就是打开网页,从上往下滚屏,加载出没有显示的所有博文,遇到”展开全文“的链接后模拟点击一下,是全部的文章显示在页面上。滚屏到底后,全部文章加载完成,并且长博文也完全展开了,然后执行定位的抓取,获得包含全部数据的一份XML。
问题是GooSeeker这边的”爬虫路线“和”连续动作“两者都需要在执行完后跟随一个新主题。所以这个理想的流程是做不到的,GooSeeker之后是否能够改良下”动作“的使用方式,让点击之类的动作能够自由使用并且之后需不需要跟随新主题也可以自由来控制。这样在规划一些流程的时候会更加的自由一些。


第二个:偶然遇到的一个小问题,做主题后在谋数台的”线索规则“ 有个自动生成的Xpath(命名为Xpath-1),之后我重新编写了Xpath优化了下翻页规则(新的命名为Xpath-2),然后点击了下右边的”保存修改“按钮。在论坛看到过一个帖子说点击保存修改后不可以在谋数台点击”存规则“,否则xpath会被重新覆盖回去。之后测试了下优化后的xpath,运行一切正常。之后关闭操作界面,重开谋数台找到刚才修改的主题导入--后续分析后,”线所规则“栏里显示的还是之前自动生成的xpath (Xpath-1),后续测试的效果确实是优化后的Xpath-2结果。所以说”线所规则“栏目里不会更变成修改后的结果,旁边的”数据规则“也有类似的问题,这应该是一个需要改进的地方吧。希望在之后的版本能够修正过来。谢谢


举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-8-26 17:42

沙发
Fuller 管理员 发表于 2016-8-26 17:06:48 | 只看该作者
非常感谢给出这么详细的建议!我把这个帖子已经转交给开发团队去思考解决方案

第一个问题确实是一个棘手的问题,需要到最后才执行抓取,万一有网页点击后展开全文,点击另一个展开全文时前一个又关闭,这种就比较两难,可能需要为这类情形设置一个配置项。

动作后其实是可以用同一个主题名的,但是,即使用同一个主题名,也解决不了抓到“展开全文”这种内容,需要设计一个完美的方案。

第二个问题也是一个需要改进的地方,这个问题存在比较久了,主要原因是存规则的时候没有“版本”概念,这个确实影响了使用体验,我们尽快解决。

谢谢!
举报 使用道具
板凳
knight100 初级会员 发表于 2016-8-26 17:18:15 | 只看该作者
Fuller 发表于 2016-8-26 17:06
非常感谢给出这么详细的建议!我把这个帖子已经转交给开发团队去思考解决方案

第一个问题确实是一个棘手的 ...

回复好快~~我觉得GooSeeker还是很不错的,比一些友商做的相似产品抓取速度快很多,而且省略了代码层面的东西,会很方便。再也不想调试程序了~~
最重要的一点是GooSeeker的服务很不错,能让人感觉到很用心。
另外反馈下我今天也试用过八[哔]鱼的抓取软件,其中的自由元素点击功能还是不错的,希望GooSeeker能够借鉴下哈,我觉的是问题一还不错的解决方法。
另外虽然写代码比较烦一些,但是很灵活,可以解决很多问题,之后是否能够开放多一些代码编辑的功能,类似”数据规则“”线索规则“这种,让没有编程基础的朋友用界面操作,让有编程能力的通过代码来配合界面,使抓取功能更加强大,这样会更完美吧~
看好你们~加了个油~
:)
举报 使用道具
地板
Fuller 管理员 发表于 2016-8-26 17:25:43 | 只看该作者
knight100 发表于 2016-8-26 17:18
回复好快~~我觉得GooSeeker还是很不错的,比一些友商做的相似产品抓取速度快很多,而且省略了代码层面 ...

好的,我们加油。

自由元素点击功能我们去学习一下。

关于自由编码功能,其实除了能写xpath以外,还能写javascript,只是一直没有文档说这个功能,比如,抓图表的时候,要自己写javascript控制鼠标移动,这些属于开发者工具那一类。未来我们把这些功能进一步完善后发布出来
举报 使用道具
5#
knight100 初级会员 发表于 2016-8-26 17:42:23 | 只看该作者
Fuller 发表于 2016-8-26 17:25
好的,我们加油。

自由元素点击功能我们去学习一下。

了解了!感谢详细的回复~
:)
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 09:02