集搜客GooSeeker网络爬虫

标题: webmagic爬虫问题 [打印本页]

作者: thqwby    时间: 2019-3-27 10:02
标题: webmagic爬虫问题
  webmagic爬虫时,请求返回202,发现请求的cookie和服务器访问的cookie不一样,怀疑是网站根据cookie规则来反爬虫,这种问题怎么处理

作者: Fuller    时间: 2019-3-27 10:52
用集搜客网络爬虫,它能自动处理好cookie问题。你是用集搜客网络爬虫吗?如果集搜客爬虫处理不了,可能是兼容性问题,请把网址发出来我们试试。

作者: Fuller    时间: 2019-3-27 10:55
你是在用这个WebMagic? http://webmagic.io/ ,网站技术是在不断发展的,一方面为了反爬,更多的方面是为了安全和提高体验,如果都用编程的方式管理cookie,是相当累的。

作者: thqwby    时间: 2019-3-27 11:05
Fuller 发表于 2019-3-27 10:55
你是在用这个WebMagic? http://webmagic.io/ ,网站技术是在不断发展的,一方面为了反爬,更多的方面是为 ...

   是用的这个WebMagic,搜客能爬,所以我想问问是怎么解决cookie的问题的,

作者: Fuller    时间: 2019-3-27 14:53
thqwby 发表于 2019-3-27 11:05
是用的这个WebMagic,搜客能爬,所以我想问问是怎么解决cookie的问题的,
...

cookie的生成是由服务器决定的,在客户端,要打开接收cookie以及后续消息用上cookie即可。通常一个客户端的程序库都有现成cookie manager类似的东西,程序中用上就行了。WebMagic我不太清楚





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2