二级名称:采集597
名称,电话图片现在都可以采集,想采集下方的详情介绍
微信图片_20210925095530.png


微信图片_20210925095537.png

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2021-9-26 17:39

gz51837844 管理员 发表于 2021-9-25 10:02:58 | 显示全部楼层
同一个任务名下, 可以定义多个规则, 每个规则对应一种页面结构
保存时,规则编号字段填不同的名称就可以了:


QQ截图20210925095949.png


举报 使用道具
tangtang1234 高级会员 发表于 2021-9-25 10:08:20 | 显示全部楼层
现在每个网页每个内容不一样,位置也不一样,怎么设置规则呢

举报 使用道具
Fuller 管理员 发表于 2021-9-25 11:34:11 | 显示全部楼层
tangtang1234 发表于 2021-9-25 10:08
现在每个网页每个内容不一样,位置也不一样,怎么设置规则呢

如果每个网页都不一样,就不要分字段采集了,可以把整篇文章采集下来
举报 使用道具
z417566919 中级会员 发表于 2021-9-26 17:17:01 | 显示全部楼层
gz51837844 发表于 2021-9-25 10:02
同一个任务名下, 可以定义多个规则, 每个规则对应一种页面结构
保存时,规则编号字段填不同的名称就可以 ...

请问创建完第2个规则了,但是抓取的网址还是按照第1个规则抓的,怎么办?
举报 使用道具
Fuller 管理员 发表于 2021-9-26 17:31:11 | 显示全部楼层
z417566919 发表于 2021-9-26 17:17
请问创建完第2个规则了,但是抓取的网址还是按照第1个规则抓的,怎么办? ...

我加载了你的这个任务:采集597 ,我只看到一个规则,是这个任务名吗?
举报 使用道具
Fuller 管理员 发表于 2021-9-26 17:39:02 | 显示全部楼层
我不建议用相同任务名下多个规则进行区分,使用多个规则的前提是他们对应的样本页面结构有很大差别,假设把第一个规则套用到第二个样本页面上,就会套用失败,相反方向的套用也必须失败,这样,爬虫才能判断出来该用哪个规则,如果第一个规则套用到第二个样本页面上是成功的,那就分不出来了。

你想把一个区域中的文本区分开,显然用两个规则很难做到,因为页面上有多个文本区域,他们结构一样。

所以,我建议:不要分开“详情1”和“详情2”字段,而是只创建一个字段“详情”,把整个详细说明区域的内容都采集下来。导出的excel结果数据,根据标志【土壤】和【光照】把需要的详情内容提取出来,这个提取放在excel中做,不要放在规则中做。

为了方便提取【土壤】和【光照】,定义规则的时候,双击抓取内容,给这个抓取内容勾选上“添加换行”,这样,可以每段话后面自动加上一个换行,就不会把【土壤】和【光照】放在一段里面了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 21:19