情况是,同一个网页中的回帖有两种形式。
1. 我是点newBckt再建一个吗?还是令外在同一主题名下再建一个schema?
2. 在上面的情况下,我如果要翻页的话,是两个都需要设置marker吗?
谢谢!
情况是,同一个网页中的回帖有两种形式。
1. 我是点newBckt再建一个吗?还是令外在同一主题名下再建一个schema?
2. 在上面的情况下,我如果要翻页的话,是两个都需要设置marker吗?
谢谢!
我做了一个schema,名字是hammerlet_americandrama
因为一个第一是“热点微博”,结构和其他一样,我就没抓,样礼品映射我抓的是第二个和第三个,但是现在的情况是:
1. 抓取的结果里没有第二个和第三个,翻页时,第二页和以后的页里抓取的结果都没有前三个。
2.每一页要重复抓三四次。
请教这该如何解决。
谢谢!!
这个信息结构:hammerlet_kaidi
他翻到第41页就不动了,很奇怪,信息结构似乎没有不同。
请指教!
还有一个问题,有些论坛,他为了防止机器人,就会设置验证码,一般是要在内嵌的浏览器里填一下的是吗?
但是有时候填验证码的那个空格在浏览器的顶端,页面无法往上拉,一拉他就下来了。那该怎么办呢?
谢谢啦!!
在建立newBckt前,刷新了DOM,并在配置中勾掉了“自动刷新DOM”,以及选上了“延长模式”。建立完毕提取规则后(单一页面,无翻页设置),无论选择“MAP”还是“Schema”都会弹框提示“Error: Cannot get theParent”,点击ok后再次弹框提示“Error: Fail to LocateToId”,之后火狐崩溃关闭。
之前采集非AJAX页面不会出现该问题,是否我忽略了什么设置?
比如强国论坛
http://bbs1.people.com.cn/boardList.do?action=postList&boardId=1
他的“下一页”就是图标。
而且问题是,也无法使用“相对线索”翻页,因为他过了显示的12345后他就不会再出来6
请教!谢谢!
是这个schema, hammerlet_mitbbs
我设置的是相对线索来翻页,刚开始检测还很好,但是一上载,就不能翻页,然后我再加载,然后它就会说那个线索坏了。能否解答一下~
谢谢!!
我设置的这个schema有两层,主要是第一层的问题:hammerlet_golden_bo是它的主题名。
给它设置了两个线索,clue0是marker翻页的,clue1是info,是要点进到帖子里面去的。
但是,当两个线索同时设置时,这个schema就只不能翻页,当我把clue1删除时它就能翻页。不知道为什么?
能否解答一下?
谢谢了!
是这个schema:hammerlet_list,里面有两个信息结构,一个辅名是forward,一个是back,但是他提取完forward之后,无法自动导向back。手动提出线索。就算使用周期自动提取的那个xml,也必须重启一下datascraper才能提取。这是为什么呢?
还有一个schema:hammerlet_protest,我设置了他的下一级schema:hammerlet_protest_post,但是它无法从第一级导向第二级。
这两个schema我检查了好久,没有发现什么问题,能否请你们帮我瞧瞧?
谢谢啦!
还是这个schema: hammerlet_follow
孔庆东的关注名单抓完后开始抓他关注的每个人的关注名单,于是开始进入每个人的主页。
最开始的时候,他们自动去抓每个人主页上的关注名单数和url,
但是不知道后来我修改了一下整理箱,进入每个人主页的时候就必须手动提取了,就是你得点一下提取,他提取一个主页(线索)。
不知怎么回事,求助。。。。
比如我要把孔庆东follow的人,然后再扒他follow的人follow的人,如此循环。
于是我根据贵公司的提醒,做了一个hammerlet_follow的schema。他是同名的两层结构,但是辅名不同。
第一层是孔庆东的主页,我在他follow的人数那里引用了url,做了一个clue(info),
第二层是孔庆东的关注名单,我做了一个翻页的clue(marker),还在他follow的人那里引用了url,做了一个clue(info),总共两个。
孔庆东关注了236个人。