他是这样的结构:
- <DIV> //这里是整个商品列表的内容
- <DIV> //这里是第一行的需要采集的商品内容
- <DL>1
- <DL>2
- <DL>3
- <DL>4
- </DIV>
- <DIV> //这里是第二行的需要采集的商品内容
- <DL>1
- <DL>2
- <DL>3
- <DL>4
- </DIV>
- .
- . //n行商品
- <DIV> //这里是第一行的推荐店内的商品内容,并不需要采集,否则就重复了
- <DL>1
- <DL>2
- <DL>3
- <DL>4
- </DIV>
- .
- .
- n行店内推荐之后
- </DIV> //整个列表结束
复制代码 我想表达的意思是,不管是商品列表,还是推荐商品列表,都是在一个<DIV>里面的。
那么采用样例复制的时候,
我没办法告诉程序:
只采集上面8行,
然后就翻页,
下面不管再有什么都不用采集。
这样将商品和推荐的区分开。
这就导致我采集了非常多的重复项,
后期数据合并非常麻烦。
同一个东西可能出现几百次。
不知道有没有办法解决这个问题。
十分感谢!
|
|
|
|
|
共 3 个关于本帖的回复 最后回复于 2016-12-12 09:43