集搜客GooSeeker网络爬虫

标题: 采集到的网址打不开 [打印本页]

作者: a1060355600    时间: 2017-12-6 01:29
标题: 采集到的网址打不开
采集的内容和网页内容不同怎么办?
例如原网址是这个:
https://detail.1688.com/offer/527173741316.html?spm=b26110380.sw1688.mof001.52.LVkzmq&tracelog=p4p

爬虫爬到链接访问后变成这样:
https://dj.1688.com/ci_bb?a=2000671507&e=sZm3tJ8i-7-QWUEkBm9Cm1LNOjNmb6NyUi7fH7USgJdVFqGUifkH0DJ.1fCQuiCmMPxJzcK2HCHOeUpm6Y.tv9KzKymIGgM4lbUP.4Ep9j5qbQFcj3aUK3CBjdjzeMemG-iU4zmZKJ-yjYXpLyymSEATBbBXackC.ozbDfh-8bwlKFMwBtw3if.nrl5Kcjk.MS53QRob2q42DrTtfItdGfuC4KUGQ.wCbRyk8MhxTkdBphtmjcAxNr9pI8FvPA8woGEL1mhC-eg8mur7F87N1XDbjr9ycYhHmRvJIQU.Jo5rs9Yp62zb216IIzIZ.Xe-W1C7fzGmUi99rKOlt-CHg8YHpqxHRNBaQ-ByUM0EnRFgY098CL6aoGfTewGtjwIBZK7IL.EuAANXYP9UFPYJlpW1D.-BKfY-SLzgWmecFMxiaI5xqTirrM4DgNrY.qQupBNNAlxRLaF6B2vISaYfCTY-7ZXT01fFN6g.xeS2xpjVM566HrVLUEEU.9wNxGtxmsKoBO71-H8ZU-GLytI7pNrLYzgm5Ks19P7p4z6ygGQpcdUqonc19w__&v=4&ap=1&rp=1


请问各位大大,管理们,这个要怎么办?
求告知。感激不尽


作者: a1060355600    时间: 2017-12-6 01:30
本帖最后由 a1060355600 于 2017-12-6 01:33 编辑

这个是爬取之前的地址https://detail.1688.com/offer/527173741316.html?spm=b26110380.sw1688.mof001.52.LVkzmq&tracelog=p4p

作者: a1060355600    时间: 2017-12-6 01:31
本帖最后由 a1060355600 于 2017-12-6 01:34 编辑

这个是爬去后的链接。无法访问到商品!直接跳转主页,只是为什么呀?https://dj.1688.com/ci_bb?a=2000671507&e=sZm3tJ8i-7-QWUEkBm9Cm1LNOjNmb6NyUi7fH7USgJdVFqGUifkH0DJ.1fCQuiCmMPxJzcK2HCHOeUpm6Y.tv9KzKymIGgM4lbUP.4Ep9j5qbQFcj3aUK3CBjdjzeMemG-iU4zmZKJ-yjYXpLyymSEATBbBXackC.ozbDfh-8bwlKFMwBtw3if.nrl5Kcjk.MS53QRob2q42DrTtfItdGfuC4KUGQ.wCbRyk8MhxTkdBphtmjcAxNr9pI8FvPA8woGEL1mhC-eg8mur7F87N1XDbjr9ycYhHmRvJIQU.Jo5rs9Yp62zb216IIzIZ.Xe-W1C7fzGmUi99rKOlt-CHg8YHpqxHRNBaQ-ByUM0EnRFgY098CL6aoGfTewGtjwIBZK7IL.EuAANXYP9UFPYJlpW1D.-BKfY-SLzgWmecFMxiaI5xqTirrM4DgNrY.qQupBNNAlxRLaF6B2vISaYfCTY-7ZXT01fFN6g.xeS2xpjVM566HrVLUEEU.9wNxGtxmsKoBO71-H8ZU-GLytI7pNrLYzgm5Ks19P7p4z6ygGQpcdUqonc19w__&v=4&ap=1&rp=1

作者: umsung    时间: 2017-12-6 09:16
a1060355600 发表于 2017-12-6 01:31
这个是爬去后的链接。无法访问到商品!直接跳转主页,只是为什么呀?https://dj.1688.com/ci_bb?a=20006715 ...

这些网址应该是有时效性的,采集下来过一会就会失效,要尽快使用,可以用层级采集直接把爬取到的网址作为下级线索给下一级规则,再进行内容采集





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2