|
我不建议用相同任务名下多个规则进行区分,使用多个规则的前提是他们对应的样本页面结构有很大差别,假设把第一个规则套用到第二个样本页面上,就会套用失败,相反方向的套用也必须失败,这样,爬虫才能判断出来该用哪个规则,如果第一个规则套用到第二个样本页面上是成功的,那就分不出来了。
你想把一个区域中的文本区分开,显然用两个规则很难做到,因为页面上有多个文本区域,他们结构一样。
所以,我建议:不要分开“详情1”和“详情2”字段,而是只创建一个字段“详情”,把整个详细说明区域的内容都采集下来。导出的excel结果数据,根据标志【土壤】和【光照】把需要的详情内容提取出来,这个提取放在excel中做,不要放在规则中做。
为了方便提取【土壤】和【光照】,定义规则的时候,双击抓取内容,给这个抓取内容勾选上“添加换行”,这样,可以每段话后面自动加上一个换行,就不会把【土壤】和【光照】放在一段里面了 |
|
共 6 个关于本帖的回复 最后回复于 2021-9-26 17:39