3 16559

如何构造下级线索

落翎 于 2015-11-25 16:31 发表 [复制链接]
通过抓取到的herf是https://detail.ju.taobao.com/hom ... tem_id=522216492622这样子的,但是这个是聚划算定制的页面,没有我想要抓取的库存信息,我需要在这个页面在建一个规则才能进入到我真正需要爬取内容的页面https://detail.tmall.com/item.ht ... ku_properties=-1:-1,其实id号是不变的,所以怎么做到提取的herf转为https://detail.tmall.com/item.htm?id=522216492622,并作为下级线索,这个虽然可以在excel上实现,但是需要的时间比较多,而我需要爬取的时间比较苛刻,所以时间会来不及,该怎么转换网址
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2015-11-26 15:59

Fuller 管理员 发表于 2015-11-25 17:32:45 | 显示全部楼层
免费版用户因为不能直接操作线索数据库,目前只能用excel转换好,再添加到线索库中。

企业版可以用程序实现线索的转换和生成
举报 使用道具
落翎 中级会员 发表于 2015-11-26 14:02:09 | 显示全部楼层
Fuller 发表于 2015-11-25 17:32
免费版用户因为不能直接操作线索数据库,目前只能用excel转换好,再添加到线索库中。

企业版可以用程序实 ...

不能运用类似于xpath的东西构造吗
举报 使用道具
Fuller 管理员 发表于 2015-11-26 15:59:03 | 显示全部楼层
落翎 发表于 2015-11-26 14:02
不能运用类似于xpath的东西构造吗

需要使用正则表达式类的处理,在excel中进行处理最方便,处理好以后一批导入进去
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结

热门用户

GMT+8, 2024-12-10 09:58