主题名豆瓣线索1_1,  加载更多后,内容会叠加产生文件,我取最后一个就可以了,但是下级线索怎么爬,是不是也是根据上级不断叠加,不断重复,上级规则应该怎么做比较好对应下级规则
db1.png db2.png
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-5-22 17:08

shengchengx 金牌会员 发表于 2018-5-22 16:44:57 | 显示全部楼层
不知道你的规则是不是删除了呢,找不到你的规则呢,你可以直接勾上下级线索就好,因为每次在点击加载更多之后它会生成一个新的xml,但是生成的线索不会有重复的,你也可以使用清楚老数据这个功能,可以看下这个教程《爬wish等瀑布流网站时使用清除老数据功能》
举报 使用道具
zhenghy 中级会员 发表于 2018-5-22 17:03:31 | 显示全部楼层
主题名是豆瓣剧情1_1,刚才写错了
举报 使用道具
zhenghy 中级会员 发表于 2018-5-22 17:05:00 | 显示全部楼层
你再帮我看一下,主题名豆瓣剧情1_2,测试可以,怎么爬取失败
举报 使用道具
shengchengx 金牌会员 发表于 2018-5-22 17:08:43 | 显示全部楼层
zhenghy 发表于 2018-5-22 17:05
你再帮我看一下,主题名豆瓣剧情1_2,测试可以,怎么爬取失败

你看下打数机下面的线索编号,加载下错误编号看看,应该是规则的不适应导致的,定位的话最好不要用id来做。你检查下规则看下。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 00:24