规则名:第一等级酒店评论0412
整理箱测试的时候都是正确的,样例复制没有问题,但是抓去数据的时候一直显示匹配失败,麻烦大神帮忙看看!谢谢!!!
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2019-4-12 15:30

沙发
Fuller 管理员 发表于 2019-4-12 15:18:04 | 只看该作者
我看到你用了绝对定位,适应性很差的,我加载你的规则,看到每个抓取内容都失败了
绝对定位要求网页结构一定变化都没有才行,那里的position函数万一数字变了,就失效了。

尽量不用绝对定位,即使用,要把绝大多数抓取内容做上定位标志映射,尤其是最上面那个容器节点,用定位标志先在网页上划定一个范围

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Fuller 管理员 发表于 2019-4-12 15:22:29 | 只看该作者


这个网站每个抓取内容都能找到好的定位标志,有些技巧要注意,比如,评论者用这个div做定位标志映射,他既有id也有class,缺省使用id,但是这个id还有一个唯一的标志号,这种一定要避免,否则只能采集到这个作者的信息,那么就双击抓取内容,在弹出窗口中勾class,就人为设定使用class了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
Fuller 管理员 发表于 2019-4-12 15:30:20 | 只看该作者


第一个样例,没有评论者地区,对比观察第二个样例,发现是在div[@class='info_text']这个div下面的,那么先用这个div做内容映射。等所有的内容映射都完成了,点击“测试”,在输出窗口中转到“数据规则”窗口,找到评论者城市的xpath,拷贝下来,这个xpath作为定位节点用的xpath,然后再改造出一个来,用于提取数据,这个xpath应该跟自动生成的那个很像,只是后面的步骤不同,后面应该是div[@class='info_text']/div[@class='userLoc']才是含有城市信息的节点。得到的两个xpath分别填到定位用xpath和抓取内容用xpath两个输入框中。




其他自定义xpath经验贴看这里:https://www.gooseeker.com/doc/thread-701-1-1.html




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 18:01