|
下级网址是这样的javascript代码- javascript:goTo('/xygs.do?method=fdcxxfbDetail&title=xmxx&name=滨江国际(星城)')
复制代码
还好,没有加密,很容易把实际网址剥出来,用substring-after()和substring-before()配合使用就可以了。对于这类情况,处理方法有:
1)设法把实际网址剥离出来,如果用自定义xpath剥离,可以直接勾选“下级线索”,就能用爬虫生成下级线索
2)如果用自定义xpath太麻烦,那就不让爬虫生成下级线索,而是把采集结果存入excel用,用excel的函数能力把下级网址构造出来,然后在会员中心,利用线索导入功能生成下级线索
3)如果网址是加密的,就无法生成下级线索,那么必须用连续点击动作,即时点击和抓取。但是,这样做采集速度最慢
|
|
共 4 个关于本帖的回复 最后回复于 2017-1-30 10:50