|
网页结构方面,有些来自于网站模板,是固定的,可以用来做采集规则,有些内容是每个编辑自己写的,不能用来做采集规则,因为每个网页都会不一样。我认为只有红框那个DIV是这个网站模板中的,其他都是店家自己写的。在这种情况下,如果要自定义xpath,定位到红框中的那个DIV就行了,用XPath把这个DIV中的所有文本提取出来,要么在采集规则中用函数截取内容,要么导入到excel中后,用excel函数截取内容。我倾向于后者,因为excel更灵活。而且这样的采集规则会很简单,适应性很高。也就是说用红框中的那个div做内容映射,把一个商品的所有详情文字都采集下来
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|