|
想点这个“查看更多”?有两个方案
方案1:就像你现在做的,做两级规则。你现在遇到的问题是第一级网页结构好多种,对吧?其实没有好多种,定义第一级规则的时候尽量用上定位标志映射,能提高适应性。如果确实解决不了,可以在同一个主题名下定义多个规则,每个规则的“规则编号”不同,DS打数机运行的时候会自动选择。
方案2:第二级的网址可以构造,个人和机构的网址有些不同,他们都是在uid之前加了一串数字,个人和机构加的数字不一样,所以,如果你已经采集到了uid,那么直接构造就行了。
另外,也可以直接使用现成的微博采集工具——集微库
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 3 个关于本帖的回复 最后回复于 2021-4-26 09:51