4 13582

没有@herf

数据菊 于 2018-12-16 23:37 发表 [复制链接]
网址:https://ask.dxy.com/ama/index#/list/section
1级主题:丁香医生-科室列表总页
2级主题:丁香医生-科室主页
我需要点击科室进入科室主页,但是我找便所有DIV节点都没有找到@herf。并且鼠标放到哪里都不会变成手,一直都是I形光标。但是真的点击又能进入下一个页面,网址也会变。不只是进入科室,在科室页点医生,在医生页点问题都是这么个情况。
我尝试做了一个模拟点击,点第一个皮肤性病科到科室主页。结果我发现,在科室主页点击完所有“加载更多”后,爬虫停不下来了。一直在“再调度”——“成功”,反复爬取同一个页面。文件夹里一大堆同样的XML。
我在社区里搜到一个爬快手的提问。遇到的问题和我的比较相似,但是我完全看不懂解答。
就是这个https://www.gooseeker.com/doc/thread-11779-1-1.html
我该怎么找到进入下一个页面的线索呢
无标题.png
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-12-18 08:52

fuz1234 新手上路 发表于 2018-12-17 08:27:19 | 显示全部楼层
每个科室的网址 都是有规律的,可以构造,比如
儿科      https://ask.dxy.com/ama/index#/list/section/2
耳鼻喉   https://ask.dxy.com/ama/index#/list/section/4
妇产科   https://ask.dxy.com/ama/index#/list/section/5

在科室页采集医生,是一个瀑布流,可以看到,得到的XML文档越来越大,用最后一个XML文档就可以了。
在打数机 高级 终点标志 ,勾选 重复内容,可以避免重复采集
举报 使用道具
Fuller 管理员 发表于 2018-12-17 08:58:13 | 显示全部楼层
翻页.png
翻页规则有问题,红框里面的空格应该删除,网页上有时候3个空格,有时候2个空格,就造成规则适应不了了
举报 使用道具
数据菊 中级会员 发表于 2018-12-17 23:07:40 | 显示全部楼层
fuz1234 发表于 2018-12-17 08:27
每个科室的网址 都是有规律的,可以构造,比如
儿科      https://ask.dxy.com/ama/index#/list/section/2
...


但是医生主页的网址最后几位数字是没有规律的。猜测应该是按照注册顺序给的。有的4位数,有的7位数。我需要从科室主页跳转到医生主页。
科室主页:https://ask.dxy.com/ama/index#/list/section/9
医生主页:https://ask.dxy.com/ama/index#/find/user/241098
从问题列表页到问题详细页也是这么个情况
问题列表页:https://ask.dxy.com/ama/index#/find/user/241098/public-issue
问题详细页:https://ask.dxy.com/ama/index#/explore/issue/2897170
这种网页结构的下级线索到底隐藏到哪去了?
举报 使用道具
Fuller 管理员 发表于 2018-12-18 08:52:41 | 显示全部楼层
数据菊 发表于 2018-12-17 23:07
但是医生主页的网址最后几位数字是没有规律的。猜测应该是按照注册顺序给的。有的4位数,有的7位数。我 ...

要彻底分析网页里面隐含的内容太麻烦了,这个数字可能来自于javascript代码,代码可能加了混淆,要找出来太麻烦。

直接用集搜客网络爬虫的点击和回退动作,用连续动作逐个采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 03:41