集搜客GooSeeker网络爬虫

标题: 图片无法下载,链接也无法爬取,总是显示匹配失败 [打印本页]

作者: hyanrong    时间: 2020-1-15 15:38
标题: 图片无法下载,链接也无法爬取,总是显示匹配失败
本帖最后由 hyanrong 于 2020-1-15 15:41 编辑

网址:https://www.upwork.com/search/profiles/?nbs=1&q=web%20dev
任务:抓取页面的人物头像,以及人物头像点击后获得的层级链接
结果:匹配失败,抓取不到任何信息
跪求解决方案!




作者: Fuller    时间: 2020-1-15 16:00
你定义的规则名是什么?匹配失败应该是定义的整理箱不对,跟下载图片无关
作者: hyanrong    时间: 2020-1-15 16:08
Fuller 发表于 2020-1-15 16:00
你定义的规则名是什么?匹配失败应该是定义的整理箱不对,跟下载图片无关 ...

定义的规则名为upwork头像
能否帮忙看一下问题出现在了哪里啊?谢谢!


作者: Fuller    时间: 2020-1-15 16:14
hyanrong 发表于 2020-1-15 16:08
定义的规则名为upwork头像
能否帮忙看一下问题出现在了哪里啊?谢谢!

我测试了,你的规则运行很好,没有出现匹配失败。

你的DS打数机运行的时候,有没有看到头像显示出来?

作者: hyanrong    时间: 2020-1-15 16:24
Fuller 发表于 2020-1-15 16:14
我测试了,你的规则运行很好,没有出现匹配失败。

你的DS打数机运行的时候,有没有看到头像显示出来?

真的耶,抓取成功啦,太感谢了!
还有一个问题求助一下,点击头像可以进行层级抓取,但是链接做不出来哦




作者: Fuller    时间: 2020-1-15 16:54
hyanrong 发表于 2020-1-15 16:24
真的耶,抓取成功啦,太感谢了!
还有一个问题求助一下,点击头像可以进行层级抓取,但是链接做不出来哦
...

[attach]11669[/attach]

1,头像和姓名那里都是超链接(html A节点),在DOM上选中@href 属性节点,鼠标右键做内容映射,比如,映射给抓取内容 网址
2,点击高级设置,勾上补全网址,因为这个超链接是相对网址,补全就完整了
3,勾上下级线索,输入下级任务名


具体参看教程:《采集网址做层级采集》

作者: hyanrong    时间: 2020-1-15 17:10
Fuller 发表于 2020-1-15 16:54
1,头像和姓名那里都是超链接(html A节点),在DOM上选中@href 属性节点,鼠标右键做内容映射,比如, ...

太感谢啦!
图片采集后,匹配到excel表格中,显示不了,是一个一个的隐形白框
使用公式="<table><img src=""C:\hyanrong\DataScraperWorks\"&C2&""">"
图片的地址C:\Users\hyanrong\DataScraperWorks\PageImgDir\71680870_1579076219568







作者: Fuller    时间: 2020-1-15 17:18
hyanrong 发表于 2020-1-15 17:10
太感谢啦!
图片采集后,匹配到excel表格中,显示不了,是一个一个的隐形白框
使用公式=""

公式那里要写 C:\Users\hyanrong\DataScraperWorks, 而不是 C:\hyanrong\DataScraperWorks

作者: hyanrong    时间: 2020-1-15 17:26
Fuller 发表于 2020-1-15 17:18
公式那里要写 C:%users\hyanrong\DataScraperWorks, 而不是 C:\hyanrong\DataScraperWorks

成功
太感谢GooSeeker团队了!每次都是这么及时的,完美的解决了问题!
GooSeeker功能太强大了!!!










欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2