请问用百度新闻搜索列表材料,看百度的搜索结果显示近200条,但实际采集下来才不到100条,请问是什么原因?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2023-1-16 23:23

Fuller 管理员 发表于 2023-1-15 22:20:17 | 显示全部楼层
使用百度新闻搜索快捷采集工具的时候,输入网址,并且要选择页数,你输入的页数是否正确?

可以观察一下爬虫采集数据的那个窗口,能看到一页页自动翻页,看看翻页到多少后才结束的
举报 使用道具
grace_wu 初级会员 发表于 2023-1-16 22:30:57 | 显示全部楼层
我看了下 百度有个提示:为了提供最相关的结果,我们省略了一些内容相似的条目,点击这里可以看到所有搜索结果。
这种情况,是去抓所有搜素结果,还是只保留这样的省略后的结果比较好呢?谢谢
举报 使用道具
gz51837844 管理员 发表于 2023-1-16 23:23:05 | 显示全部楼层
grace_wu 发表于 2023-1-16 22:30
我看了下 百度有个提示:为了提供最相关的结果,我们省略了一些内容相似的条目,点击这里可以看到所有搜索 ...

你可以比对下2种情况显示的条目有什么区别,显示所有搜索结果后,内容是否是自己想要的或者预期的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结

热门用户

GMT+8, 2024-12-10 10:27