集搜客GooSeeker网络爬虫

标题: href="javascript:;" 怎么抓取链接 [打印本页]

作者: yuewuhen00544    时间: 2020-4-7 16:40
标题: href="javascript:;" 怎么抓取链接
本帖最后由 yuewuhen00544 于 2020-4-7 17:40 编辑

右击没有链接 只有点击后才能看到链接。
用连续动作能打开,采集时,只打开了第一个链接就自动结束了。不知道怎么设置采集。

能不能把链接提取出来呢?

作者: Fuller    时间: 2020-4-7 17:31
这种只能用连续动作直接点开链接。如果发现只打开了第一个链接,一般是连续动作的定位xpath写的不对,要写一个通用的xpath,能够定位到这一系列所有的链接。

另外要注意,如果点击以后会在一个新的浏览器窗口中显示内容,而不是在当前浏览器窗口中显示下层内容,那么要用旗舰版的飞掠抓取功能,飞掠抓取负责跟踪所有弹出的窗口,一弹出来就启动抓取
作者: yuewuhen00544    时间: 2020-4-7 17:41
Fuller 发表于 2020-4-7 17:31
这种只能用连续动作直接点开链接。如果发现只打开了第一个链接,一般是连续动作的定位xpath写的不对,要写 ...

写一个通用的xpath,能点开的话。
怎么设置提取这里链接呢?是不是在realpath会有记录?

作者: Fuller    时间: 2020-4-7 21:08
yuewuhen00544 发表于 2020-4-7 17:41
写一个通用的xpath,能点开的话。
怎么设置提取这里链接呢?是不是在realpath会有记录?
...

做点击动作的教程看这个:https://www.gooseeker.com/doc/article-288-1.html

点击以后,采集出现的网页内容,会自动把网址存到realpath的





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2