主题:惠安项目*

惠安项目2获取不到惠安项目1的线索,要怎么弄呢?

难道要用点击来操作吗?麻烦您能具体要怎么操作呢?

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-1-30 10:50

沙发
Fuller 管理员 发表于 2017-1-30 09:31:07 | 只看该作者
第一级运行正常吗?
举报 使用道具
板凳
Fuller 管理员 发表于 2017-1-30 10:00:00 | 只看该作者
下级网址是这样的javascript代码
  1. javascript:goTo('/xygs.do?method=fdcxxfbDetail&title=xmxx&name=滨江国际(星城)')
复制代码


还好,没有加密,很容易把实际网址剥出来,用substring-after()和substring-before()配合使用就可以了。对于这类情况,处理方法有:
1)设法把实际网址剥离出来,如果用自定义xpath剥离,可以直接勾选“下级线索”,就能用爬虫生成下级线索
2)如果用自定义xpath太麻烦,那就不让爬虫生成下级线索,而是把采集结果存入excel用,用excel的函数能力把下级网址构造出来,然后在会员中心,利用线索导入功能生成下级线索
3)如果网址是加密的,就无法生成下级线索,那么必须用连续点击动作,即时点击和抓取。但是,这样做采集速度最慢

举报 使用道具
地板
zhuohui1987 金牌会员 发表于 2017-1-30 10:46:09 | 只看该作者
Fuller 发表于 2017-1-30 10:00
下级网址是这样的javascript代码

还好,没有加密,很容易把实际网址剥出来,用substring-after()和substri ...

构造出来的网址是获取不到里面的信息的啊
举报 使用道具
5#
Fuller 管理员 发表于 2017-1-30 10:50:49 | 只看该作者
zhuohui1987 发表于 2017-1-30 10:46
构造出来的网址是获取不到里面的信息的啊

你构造出来的网址是什么?发一个看看
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 08:46