网页结构相同的1000+个网址（作为线索），有的网址有要抓取的数据，有的网址该数据为空，如何设置规则完全抓取数据？

houxinyu1216

线索网址为如下等，所以线索网址可见附件：
<<<<<

https://www.wdzj.com/dangan/dyj/

https://www.wdzj.com/dangan/sjhl/

https://www.wdzj.com/dangan/dsmm/

https://www.wdzj.com/dangan/xqd1/

https://www.wdzj.com/dangan/cxjr/

https://www.wdzj.com/dangan/xwch/

要抓取的数据为ICP号，我设计的命名主题和规则名称为：正常平台ICP号。

我发现有的线索网址有，有的线索网址没有这个数据，还发现他们的Xpath路径是相同的（如下），故在规则中高级设置中自定义了Xpath,
/html/body/div[position()=10]/div/div[position()=1]/div[position()=1]/dl[position()=1]/dd[position()=6]

但发现DS打数机仍然有些网址线索中的数据未能抓取下来，不知什么原因，求助大牛帮忙解答！非常感谢！

Fuller · 发表于 2018-10-29 18:19:04

就是为了ICP号这一个信息吗？我看网页结构都是一样的，不用自定义xpath都可以，没有的网页就采集到一个 - 符号，后期可以通过过滤，把这类内容过滤掉

houxinyu1216 · 发表于 2018-10-29 21:51:32

Fuller 发表于 2018-10-29 18:19
就是为了ICP号这一个信息吗？我看网页结构都是一样的，不用自定义xpath都可以，没有的网页就采集到一个 - ...

对的，就是想单独抓取这个数据，因为别的数据已经成功抓取到了，但唯独这个数据，大部分都没有抓取到，要么本来有的抓取为空，要么抓取到上一行要素的信息。。

Fuller · 发表于 2018-10-30 09:29:37

houxinyu1216 发表于 2018-10-29 21:51
对的，就是想单独抓取这个数据，因为别的数据已经成功抓取到了，但唯独这个数据，大部分都没有抓取到，要 ...

自定义xpath应该这样写

//*[@class='bgbox-bt zzfwbox']/dl/dd/div[contains(preceding-sibling::div/em/text(), 'ICP号')]/text()

复制代码

相对于那个 ICP号这个字符串

网页结构相同的1000+个网址（作为线索），有的网址有要抓取的数据，有的网址该数据为空，如何设置规则完全抓取数据？

共 3 个关于本帖的回复最后回复于 2018-10-30 09:29

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

网页结构相同的1000+个网址（作为线索），有的网址有要抓取的数据，有的网址该数据为空，如何设置规则完全抓取数据？

共 3 个关于本帖的回复 最后回复于 2018-10-30 09:29

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2018-10-30 09:29