|
本帖最后由 ym 于 2016-12-30 10:38 编辑
二、构造搜索结果页面的独立网址
如果搜索结果页面具有独立网址,并且网址里的关键词支持中文,就可以构造出想要的关键词网址,然后直接添加到规则里,就可以批量采集。以百度搜索为例,操作如下:
1、把网址去掉关键词的部分拷贝到excel的单元格里,把想要搜索的关键词拷贝到旁边一列,然后复制网址往下粘贴
2、把两列拷贝到记事本txt文件里,复制中间的空格,然后按快捷键Ctrl+H,弹出替换窗口,把空格粘贴到查找内容里,再点击全部替换,就可以把空格去掉。
3、得到完整的网址后,还要检查是否为有效网址,用浏览器打开网址,能打开对应的搜索结果页面才算有效,否则无效,说明网址编码特殊,不适用这种方法,需要人工整理出关键词的网址或者是用连续动作实现自动搜索采集。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 3 个关于本帖的回复 最后回复于 2017-11-19 08:27