想要从某个确定网站的所有招标公告中(如下图)筛选出与医疗产业相关的公告并进行数据采集,应该采用什么技术或者功能啊








举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2016-12-26 17:09

沙发
quyixuan 金牌会员 发表于 2016-12-26 15:21:30 | 只看该作者
你这个筛选估计只能人工筛选吧,根本没有什么标志判断一个东西是不是医疗相关的
举报 使用道具
板凳
xandy 论坛元老 发表于 2016-12-26 15:27:23 | 只看该作者
我认为不应该在定义采集规则的时候思考”如何筛选出与医疗产业相关的公告“,因为没有规则而言,所以你还是自然定义采集规则和样例复制、翻页等。
然后在结果excel文件中对标题确定几个”与医疗产业相关的公告“的关键词,这样花几秒钟就都筛选出来的,然后再将筛选出来的公告的链接作为下级线索来运行二级规则。
举报 使用道具
地板
懵懵的girl 初级会员 发表于 2016-12-26 15:27:24 | 只看该作者
如果这个网页上自己有一个关键词输入的搜索标志,那我就可以利用连续动作来代替自己的人工筛选,对吧?
举报 使用道具
5#
xandy 论坛元老 发表于 2016-12-26 15:28:54 | 只看该作者
懵懵的girl 发表于 2016-12-26 15:27
如果这个网页上自己有一个关键词输入的搜索标志,那我就可以利用连续动作来代替自己的人工筛选,对吧? ...

是,如果有关键词筛选框,你可以通过连续动作中来输入关键词,然后再对筛选出来的结果定义采集规则。
举报 使用道具
6#
酱紫 中级会员 发表于 2016-12-26 15:29:06 | 只看该作者
懵懵的girl 发表于 2016-12-26 15:27
如果这个网页上自己有一个关键词输入的搜索标志,那我就可以利用连续动作来代替自己的人工筛选,对吧? ...

网页上如果能有办法通过一些点击或者什么人工操作做筛选,那也可以通过做规则来实现
举报 使用道具
7#
懵懵的girl 初级会员 发表于 2016-12-26 15:44:52 | 只看该作者
xandy 发表于 2016-12-26 15:28
是,如果有关键词筛选框,你可以通过连续动作中来输入关键词,然后再对筛选出来的结果定义采集规则。
...

好的,那有没有连续动作输入关键词的教程视频啊,文本上东西很乱,没有每一步骤具体的方法
举报 使用道具
8#
quyixuan 金牌会员 发表于 2016-12-26 15:46:57 | 只看该作者
懵懵的girl 发表于 2016-12-26 15:44
好的,那有没有连续动作输入关键词的教程视频啊,文本上东西很乱,没有每一步骤具体的方法
...

http://www.gooseeker.com/doc/thread-2159-1-1.html
这个是连续动作的视频教程
举报 使用道具
9#
懵懵的girl 初级会员 发表于 2016-12-26 15:58:26 | 只看该作者
quyixuan 发表于 2016-12-26 15:46
http://www.gooseeker.com/doc/thread-2159-1-1.html
这个是连续动作的视频教程

这个我看过了,主要说的是点击的内容,没有说到关键词搜索,我按照他的意思修改成了关键词搜索的,可是结果不对
举报 使用道具
10#
quyixuan 金牌会员 发表于 2016-12-26 16:08:22 | 只看该作者
懵懵的girl 发表于 2016-12-26 15:58
这个我看过了,主要说的是点击的内容,没有说到关键词搜索,我按照他的意思修改成了关键词搜索的,可是结 ...

那就只能看这个文本教程:http://www.gooseeker.com/doc/article-141-1.html
这些动作的操作相差不是很大,所以没有专门讲解输入动作的视频

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-15 12:22