https://twitter.com/search?q=%22Green%20Book%22%20(%23Oscars)%20lang%3Aen%20until%3A2019-02-27%20since%3A2019-02-24&src=typed_query

在twitter搜索后,会用加粗的字体标记搜索关键字。但是在网页结构里,文本会被加粗部分分割:
示例1:这段文字被加粗的“GREEN BOOK”分割成三段

这是对应的网页结构,后面两个#text的内容是空的


这是示例2,他的内容被分成了6个部分


这是对应的网页结构,有6各个#text,其中一个为空


对于这样的结构(相同的div下 #text的数量并不固定,空白#text的出现没有规律),如何通过案例映射采集全部评论内容?



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2019-9-29 14:27

Fuller 管理员 发表于 2019-9-29 12:23:19 | 显示全部楼层
div下的多个text就不要用样例复制挨个采集了,而是把div作为一个整体,做内容映射给一个抓取内容,把整个文字内容采集下来
举报 使用道具
carloszone 中级会员 发表于 2019-9-29 13:40:00 | 显示全部楼层
Fuller 发表于 2019-9-29 12:23
div下的多个text就不要用样例复制挨个采集了,而是把div作为一个整体,做内容映射给一个抓取内容,把整个文 ...

不太明白。

一个div是一个账号转发或者发布的评论,我要采集多个账号的内容,所以应该还需要样例复制吧。

把div做整体的话,如果采集div结构相同的内容呢
举报 使用道具
carloszone 中级会员 发表于 2019-9-29 14:27:03 | 显示全部楼层
Fuller 发表于 2019-9-29 12:23
div下的多个text就不要用样例复制挨个采集了,而是把div作为一个整体,做内容映射给一个抓取内容,把整个文 ...

搞定了   谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-10-7 00:19