meiquanjin 初级会员 发表于 2018-7-18 17:36:23 | 显示全部楼层
wangyong 发表于 2018-7-18 16:02
内容表达式是相对于定位表达式的,这两个xpath合在一起在谋数台里搜索能正常定位到节点吗?
...

请问怎么解决呀,没法获取到id,两个表的数据就关联不起来
举报 使用道具
meiquanjin 初级会员 发表于 2018-7-18 17:49:10 | 显示全部楼层
Fuller 发表于 2018-7-18 12:53
如果用 ./text()作为内容表达式,采集到的数据将是3这个数字,用来匹配第一和第二级不太容易,因为可能别 ...

请问获取访客 xpath 这个问题怎么解决呀,急急急

举报 使用道具
Fuller 管理员 发表于 2018-7-18 18:56:52 | 显示全部楼层
meiquanjin 发表于 2018-7-18 15:51
.//*[@class='td-visitor align-left']/a/text()
.//[@class='td-visitor align-left']/a/text()
这两种 ...

为什么都采集到一个访客的id,这是因为写的内容表达式不对,相对于被点击节点写xpath,肯定不能用 //* ,因为这样是相对于全网页的
而用.//[@class='td-visitor align-left']/a/text()    ,我不知道行不行,因为不知道你的网页结构,关键看这个td-visitor align-left表示的是谁,如果也是一个全局意义的,一定也会不对。

你最好把DOM结构截个图出来。在这个DOM上能显示出被点击节点和他相关的访客ID节点的关系,我看看应该怎样写。通常会基于当前被点击节点写好几级 ../../../ 这样才能回溯到被点击节点与访客id节点的共同祖先节点,然后 就是 ../../../div[@class='xxxx']/text(),假设访客id节点刚好是共同祖先节点的字节点,而且含有一个class=xxxx
举报 使用道具
Fuller 管理员 发表于 2018-7-18 19:12:31 | 显示全部楼层
meiquanjin 发表于 2018-7-18 17:49
请问获取访客 xpath 这个问题怎么解决呀,急急急

根据你前面一个截图,xpath应该这么写./../../td[@class='td-visitor align-left']/a[position()=1]/text()


我假定你点击的是那个span[@class='td-pv-span']

举报 使用道具
meiquanjin 初级会员 发表于 2018-7-19 09:53:02 | 显示全部楼层
Fuller 发表于 2018-7-18 19:12
根据你前面一个截图,xpath应该这么写./../../td[@class='td-visitor align-left']/a/text()

点击浏览量抓取二级弹框数据时,当浏览量0的时候,点击是没有弹框的,这时应该采集不到二级弹框的数据才对,但是实际会把上一个二级弹框的数据采集到
微信截图_20180719094752.png
微信截图_20180719094914.png
为0时把上个[size=13.3333px][url=]D18071713[/url][size=13.3333px] 的二级数据采集了
微信截图_20180719095110.png
举报 使用道具
汽车论坛 中级会员 发表于 2018-7-19 10:03:26 | 显示全部楼层
meiquanjin 发表于 2018-7-19 09:53
点击浏览量抓取二级弹框数据时,当浏览量0的时候,点击是没有弹框的,这时应该采集不到二级弹框的数据才 ...

这种其实影响不大,后续可以直接对采集的结果进行处理,把访客数为0的数据全部过滤筛选出来
举报 使用道具
Fuller 管理员 发表于 2018-7-19 10:20:14 | 显示全部楼层
meiquanjin 发表于 2018-7-19 09:53
点击浏览量抓取二级弹框数据时,当浏览量0的时候,点击是没有弹框的,这时应该采集不到二级弹框的数据才 ...

这个弹出的窗口在关闭时,可能只是隐藏了。找到这个窗体的最上级的DOM节点,可能可以观察到在隐藏以后的style值。

如果是用style控制的,那么也把这个style抓取下来,在处理抓取结果的时候,根据这个style值判断抓到的内容是不是显示出来的。

抓取style不能用内容映射,因为在GS浏览器的DOM中没有@style这个节点,指定自定义xpath。自定义xpath的时候定位表达是和内容表达式可以不同。对于这种情况,定位表达式定位到DOM上存在的节点,比如包含这个@style属性的div节点或者div的属性节点,而内容表达式定位到这个@style属性
举报 使用道具
meiquanjin 初级会员 发表于 2018-10-31 11:55:01 | 显示全部楼层
请问抓取二级页时为什么会跳过,规则没有变
GIF.gif
举报 使用道具
meiquanjin 初级会员 发表于 2018-10-31 11:59:48 | 显示全部楼层
有的会抓取,有的会跳过去
GIF.gif
举报 使用道具
gz51837844 管理员 发表于 2018-10-31 13:49:10 | 显示全部楼层
meiquanjin 发表于 2018-10-31 11:59
有的会抓取,有的会跳过去

如果是有规律的跳, 那你要检查一下点击动作里的xpath表达式,是否包含了所有要点击的节点

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 18:25