主题名:亚马逊层级抓取商品信息1.由于该页面下,一条产品信息共有两个下级链接,一个对应的是产品信息,一个对应的是评论信息,我要抓取这两个链接,然后在下一级分别展开抓取,可行吗
2.该页面的翻页为 1-20 20-40这样,是否不能使用记号线索呢,应该要用定点线索吗





举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2017-4-24 18:10

沙发
xandy 论坛元老 发表于 2017-4-24 12:10:33 | 只看该作者
1,可以,两个链接分别对应两个层级抓取,两个层级抓取的主题名分别对应这两个链接对应页面的抓取规则
2,先用记号线索试试,不行就用定点线索,如果每页有独立网址的话,你就可以不用做翻页了,直接构造网址就行
举报 使用道具
板凳
beanbing 中级会员 发表于 2017-4-24 12:53:59 | 只看该作者
xandy 发表于 2017-4-24 12:10
1,可以,两个链接分别对应两个层级抓取,两个层级抓取的主题名分别对应这两个链接对应页面的抓取规则
2, ...

什么叫做构造网址呢?  在爬虫路线哪里吗
举报 使用道具
地板
beanbing 中级会员 发表于 2017-4-24 13:47:51 | 只看该作者
xandy 发表于 2017-4-24 12:10
1,可以,两个链接分别对应两个层级抓取,两个层级抓取的主题名分别对应这两个链接对应页面的抓取规则
2, ...

使用定点也不行,只弄到了第一页,每一页都是后面的page数字改动了而已,非独立网址吧
举报 使用道具
5#
quyixuan 金牌会员 发表于 2017-4-24 14:46:53 | 只看该作者
beanbing 发表于 2017-4-24 13:47
使用定点也不行,只弄到了第一页,每一页都是后面的page数字改动了而已,非独立网址吧
...

我看了你的网页
第一页网址:https://www.amazon.com/gp/bestse ... ng-goods_1_5_last#1
第二页网址:https://www.amazon.com/gp/bestse ... ng-goods_1_5_last#2
后面类似的,第几页最后的数字就对应的是几,这种情况就是每页都有独立网址,不需要做翻页,直接将每页的网址添加到规则就可以采集
另外我看了你的规则,只是采集了两个链接,其中一个勾选了关键内容

建议将产品名称也采集过来,并勾选关键内容,把review链接去掉关键内容
因为勾选关键内容是确保网页上有这个内容才采集,可能无法确保每个产品都有review链接,但是产品名称时肯定都有的

举报 使用道具
6#
beanbing 中级会员 发表于 2017-4-24 15:35:38 | 只看该作者
quyixuan 发表于 2017-4-24 14:46
我看了你的网页
第一页网址:https://www.amazon.com/gp/bestsellers/sporting-goods/10208182011/ref=pd ...

那我这些独立网址要做excel模板来批量导入线索?
举报 使用道具
7#
quyixuan 金牌会员 发表于 2017-4-24 15:53:58 | 只看该作者
beanbing 发表于 2017-4-24 15:35
那我这些独立网址要做excel模板来批量导入线索?

是的,页数多的话最好是这样批量导入

举报 使用道具
8#
beanbing 中级会员 发表于 2017-4-24 17:15:50 | 只看该作者
quyixuan 发表于 2017-4-24 15:53
是的,页数多的话最好是这样批量导入

但是数据导入失败  我的是XML格式,才32kb 就导入失败   哎

举报 使用道具
9#
beanbing 中级会员 发表于 2017-4-24 17:31:21 | 只看该作者
quyixuan 发表于 2017-4-24 14:46
我看了你的网页
第一页网址:https://www.amazon.com/gp/bestsellers/sporting-goods/10208182011/ref=pd ...

批量导入不成功
举报 使用道具
10#
quyixuan 金牌会员 发表于 2017-4-24 17:33:01 | 只看该作者

你搞错了吧,这个是批量导入线索,又不是导入数据,而且导入线索是导入excel表格的

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-13 10:14