我在抓取京东评论时,抓了几页后,后面几页总是会同一页抓取好几次,导致出现很多个相同的xml文件,请问这是怎么回事?
我在抓取京东评论时,抓了几页后,后面几页总是会同一页抓取好几次,导致出现很多个相同的xml文件,请问这是怎么回事?
提取京东评论,设置了翻页规则,但是结果里只有第一页的数据,显示timeout to load the page,请问是怎么回事?
如何抓取QQ群聊天记录内容,然后自动更新到自己的网站上。还有如何对抓取到内容进行过滤,就是不想要的内容不更新到网站上。
您好,我现在刚开始抓取评论,可是在设置规则的时候总是遇到问题,求解决:
1.在设置好内容映射后,点击MAP文件的test this,出现Error: The bucket is empty, which is not permitted跟The length of data extraction instruction file is zero. Skipped;
2.在设置FreeFormat映射时,出现Error: The content and FreeFormat nodes are not on the same DOM branch
商品的交易记录页面默认只显示4页内容,在翻页条下面有一个“查看更多记录”的按钮,点击后可以显示所有交易记录,这种情况在设置线索时应该怎么设置呢?
已经定义好的信息提取规则,测试时可以显示输出结果。后来用metastudio加载出来显示“无法定位容器No.0”,“无法定位信息属性No.1(情景1)”……直到最后一个信息属性提示”无法定位……“,这是什么原因呀?应该怎么解决?
爬取淘宝和京东的商品评论数据,在对买家名及评论内容、日期等进行映射时,出现“The location has been changed, so the mapping makes no sense”,是什么原因呀?应该怎么解决呢?(我是新手。)
各位好!
近日遇到这样的问题,对方网站list页面的每个商品href属性内均为一条js代码而非url,虽然能定义规则并进行抓取(勾选了延长+积极模式),但在theme list里无法对生成的目标主题进行识别(状态仍为reserved),请问这种情况该如何处理呢?还望赐教,多谢!!
资料中提到:“由于使用动态IP地址,被抓取的网站的反爬虫策略难于奏效。”,能够具体解释一下么? 是使用随机的IP的意思么? X-Foword?