请问层级抽取怎么实现呢?按照示例讲解上的设置后,不能提取第二层页面的内容,只能提取第一级的列表。设置的demo为买卖点吧博客3,第二级的为买卖点吧1。谢谢!
请问层级抽取怎么实现呢?按照示例讲解上的设置后,不能提取第二层页面的内容,只能提取第一级的列表。设置的demo为买卖点吧博客3,第二级的为买卖点吧1。谢谢!
为什么问我的只能提取一页信息,我的也是按照例子上设置的,但只提取第一页信息;加载demo_comment_sina,也只能提取一页?
http://club.baby.sina.com.cn/forum-117-1.html
这是我要爬取的网页,我是通过纵向爬取先爬取发帖链接,然后在爬取发帖内容,发帖内容是多个文本形式呈现的,就对父节点做FreeFormat映射,勾选文本内容。但是只能爬取第一个帖子的发帖内容,剩下的帖子的发帖内容是空白的,该网站的发帖内容一个是用形式分行的,一个是用形式,是不是两个分段形式不一样导致的发帖内容爬不下来。
附上对同一个父节点做FreeFormat映射的不同MAP文件
请教关于线索提取的问题
请问下,如果我提取的链接是如下格式的,计算不断的重复的怎么解决啊,好像pattern线索解决不了这个问题哦
http://www.gooseeker.com/cn/ol_search.aspx?page=X
这个X就是不断变化的变量
实例:
http://www.gooseeker.com/cn/ol_search.aspx?page=1
http://www.gooseeker.com/cn/ol_search.aspx?page=2
http://www.gooseeker.com/cn/ol_search.aspx?page=3
http://www.gooseeker.com/cn/ol_search.aspx?page=4
.....................
Fuller:
你好,在使用抓取软件的时候出现了下面的问题:
ERROR: ScraperClient: Error: 503 for: http://www.metacamp.cn/metacamp/secure/pokeserver.htm?nego_client=MetaSt...
刚开始以为是版本的问题,就换了较高版本的来试,但仍然出现上面的问题,不知道是不是服务器出问题了?
谢谢!
请先访问网站:
http://vip.chinalawinfo.com/case/Result.asp?SFlag=11
这个网页抓取出现问题:
1.不能翻页抓取,它提示说没有A,这个问题最严重,有谁有办法,请分享一下
有没人啊,分享一下怎么做啊
主要是没有A,但是还有一个checkbox不知道可不可以用啊
中国专利网的http://www.cnpatent.com/Show_Zl_Info.asp?ipc=A63B,这个页面怎么抓取?请求大师帮忙,不胜感激。
我现在也在抓取新浪有关动车追尾的评论。有的重复是因为在翻页抓取时,在抓到一定页数时,新浪页面上会显示“正在读取帖子数据...”,这时DataScraper抓取时,下面页数是一直在变化,但由于页面内容还没有变化,因为一直在显示“正在读取帖子数据...”,这时抓下来的数据还是原来那个页面的内容,而不是最新页面的内容,这样最新页面的内容就会被漏掉。因而抓下来的数据会有重复。。
不知道该怎么解决呀
在抓取微博信息时,有的含有转发信息即有相应的字段,有的没有转发信息即不含有相应的字段,将规则设置成抓取含有转发信息的时候,只是提取出了具有相应字段的微博,对于不含有相应字段的微博是否可以在相同抓取规则下设置成相应字段为空?该如何设置呢?