网站网址:http://www.pkulaw.cn/
谢谢
举报 使用道具
| 回复

共 15 个关于本帖的回复 最后回复于 2017-10-1 17:08

shengchengx 金牌会员 发表于 2017-9-29 17:26:24 | 显示全部楼层
如需定制可以联系集搜客官方定制服务2019907223
举报 使用道具
Fuller 管理员 发表于 2017-9-29 17:49:02 | 显示全部楼层
在这个网站上搜索“教育”,浏览他的结果,发现网址总是不变,所以,要定义多级连续动作
举报 使用道具
chengyiling 初级会员 发表于 2017-10-1 10:49:49 | 显示全部楼层
Fuller 发表于 2017-9-29 17:49
在这个网站上搜索“教育”,浏览他的结果,发现网址总是不变,所以,要定义多级连续动作 ...

我不需要进行关键词检索,我只要http://www.pkulaw.cn/这个网址一进去就显示的行政法规(8586篇),这个怎么设置动作啊?在“新建规则”里面设置完“列表”之后怎么处理啊?

举报 使用道具
Fuller 管理员 发表于 2017-10-1 12:31:26 | 显示全部楼层
chengyiling 发表于 2017-10-1 10:49
我不需要进行关键词检索,我只要http://www.pkulaw.cn/这个网址一进去就显示的行政法规(8586篇),这个 ...

点击20171001123042.png
做一个点击动作,点击左栏菜单的“行政法规”
举报 使用道具
chengyiling 初级会员 发表于 2017-10-1 15:31:13 | 显示全部楼层
Fuller 发表于 2017-10-1 12:31
做一个点击动作,点击左栏菜单的“行政法规”

您好,首先十分感谢您的解答,您再帮我看一下我的规则方式对吗?第一步规则:设置点击动作(图片上传至附件,为1-1、1-2、1-3)
第二步规则:设置一级抓取(图片上传至附件,为2-1、2-2、2-3)
第三步规则:设置二级抓取(图片上传至附件,为3-1、3-2)
十分感谢!


1-1

1-1

1-2

1-2

1-3

1-3

2-1

2-1

2-2

2-2

2-3

2-3

3-1

3-1

3-2

3-2
举报 使用道具
chengyiling 初级会员 发表于 2017-10-1 15:37:35 | 显示全部楼层
Fuller 发表于 2017-10-1 12:31
做一个点击动作,点击左栏菜单的“行政法规”

我执行之后第二条线索总是失败,我的第二条和第三条线索就是按照二级抓取的规则设置的,而且第二条线索的命名就是第一条线索中连续动作的命名

匹配失败

匹配失败
举报 使用道具
Fuller 管理员 发表于 2017-10-1 15:55:12 | 显示全部楼层
chengyiling 发表于 2017-10-1 15:37
我执行之后第二条线索总是失败,我的第二条和第三条线索就是按照二级抓取的规则设置的,而且第二条线索的 ...

第一级到第二级是连续动作,不能单独执行第二级,执行第一级会自动执行到第二级。

而第二级和第三级之间是层级抓取,所以,第三级可以单独执行
举报 使用道具
chengyiling 初级会员 发表于 2017-10-1 16:07:22 | 显示全部楼层
Fuller 发表于 2017-10-1 15:55
第一级到第二级是连续动作,不能单独执行第二级,执行第一级会自动执行到第二级。

而第二级和第三级之间 ...

所以第二个规则就不用执行了,我只需要执行“法规”和“法规动作第二级”就可以了吗?
举报 使用道具
chengyiling 初级会员 发表于 2017-10-1 16:16:23 | 显示全部楼层
Fuller 发表于 2017-10-1 15:55
第一级到第二级是连续动作,不能单独执行第二级,执行第一级会自动执行到第二级。

而第二级和第三级之间 ...

我本来有8586份文件要抓取,但是我只成功抓取下来两个,我在执行“法规”动作之后,“法规动作第二级”的线索数就变成了2,并没有变成8586,请问这是什么原因啊,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 07:02