请问用百度新闻搜索列表材料,看百度的搜索结果显示近200条,但实际采集下来才不到100条,请问是什么原因?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2023-1-16 23:23

沙发
Fuller 管理员 发表于 2023-1-15 22:20:17 | 只看该作者
使用百度新闻搜索快捷采集工具的时候,输入网址,并且要选择页数,你输入的页数是否正确?

可以观察一下爬虫采集数据的那个窗口,能看到一页页自动翻页,看看翻页到多少后才结束的
举报 使用道具
板凳
grace_wu 中级会员 发表于 2023-1-16 22:30:57 | 只看该作者
我看了下 百度有个提示:为了提供最相关的结果,我们省略了一些内容相似的条目,点击这里可以看到所有搜索结果。
这种情况,是去抓所有搜素结果,还是只保留这样的省略后的结果比较好呢?谢谢
举报 使用道具
地板
gz51837844 管理员 发表于 2023-1-16 23:23:05 | 只看该作者
grace_wu 发表于 2023-1-16 22:30
我看了下 百度有个提示:为了提供最相关的结果,我们省略了一些内容相似的条目,点击这里可以看到所有搜索 ...

你可以比对下2种情况显示的条目有什么区别,显示所有搜索结果后,内容是否是自己想要的或者预期的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样让GooSeeker分词工具使用宋体画词云图
  • 使用BERTopic时遇到的c-TF-IDF是什么?
  • gooseeker分词工具的命名实体识别和词形还
  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?

热门用户

GMT+8, 2026-5-24 20:55