Web信息提取

层级抽取问题

Fri, 10/07/2011 - 18:16 — ylbaobao

请问层级抽取怎么实现呢？按照示例讲解上的设置后，不能提取第二层页面的内容，只能提取第一级的列表。设置的demo为买卖点吧博客3，第二级的为买卖点吧1。谢谢！

Web信息提取

11 comments

翻页

Sun, 09/25/2011 - 19:37 — ylbaobao

为什么问我的只能提取一页信息，我的也是按照例子上设置的，但只提取第一页信息；加载demo_comment_sina，也只能提取一页？

Web信息提取

7 comments

http://club.baby.sina.com.cn/forum-117-1.html
这是我要爬取的网页，我是通过纵向爬取先爬取发帖链接，然后在爬取发帖内容，发帖内容是多个文本形式呈现的，就对父节点做FreeFormat映射，勾选文本内容。但是只能爬取第一个帖子的发帖内容，剩下的帖子的发帖内容是空白的，该网站的发帖内容一个是用形式分行的，一个是用形式，是不是两个分段形式不一样导致的发帖内容爬不下来。
附上对同一个父节点做FreeFormat映射的不同MAP文件

Web信息提取

请教关于线索提取的问题

Sat, 08/27/2011 - 16:22 — shenji

请教关于线索提取的问题
请问下，如果我提取的链接是如下格式的，计算不断的重复的怎么解决啊，好像pattern线索解决不了这个问题哦
http://www.gooseeker.com/cn/ol_search.aspx?page=X
这个X就是不断变化的变量

实例：
http://www.gooseeker.com/cn/ol_search.aspx?page=1
http://www.gooseeker.com/cn/ol_search.aspx?page=2
http://www.gooseeker.com/cn/ol_search.aspx?page=3
http://www.gooseeker.com/cn/ol_search.aspx?page=4
.....................

Web信息提取

1 comment

请教关于登陆网页抓取数据

Fri, 08/26/2011 - 16:09 — shenji

请问下，这个DataScraper登陆网页相应的网页以后，再进行抓取数据

Web信息提取

2 comments

服务器出问题了吗？

Thu, 08/25/2011 - 19:52 — jinggzhao

Fuller：
你好，在使用抓取软件的时候出现了下面的问题：
ERROR: ScraperClient: Error: 503 for: http://www.metacamp.cn/metacamp/secure/pokeserver.htm?nego_client=MetaSt...
刚开始以为是版本的问题，就换了较高版本的来试，但仍然出现上面的问题，不知道是不是服务器出问题了？
谢谢！

Web信息提取

1 comment

好奇怪的网站，有兴趣的人帮我想想办法

Mon, 08/22/2011 - 00:03 — barrywoo

请先访问网站：

http://vip.chinalawinfo.com/case/Result.asp?SFlag=11

这个网页抓取出现问题：

1.不能翻页抓取，它提示说没有A，这个问题最严重，有谁有办法，请分享一下

有没人啊，分享一下怎么做啊

主要是没有A，但是还有一个checkbox不知道可不可以用啊

Web信息提取

4 comments

网页信息不能抓取，请求帮助！

Thu, 08/04/2011 - 11:13 — dobestdogood

中国专利网的http://www.cnpatent.com/Show_Zl_Info.asp?ipc=A63B，这个页面怎么抓取？请求大师帮忙，不胜感激。

Web信息提取

2 comments

新浪评论抓取，抓取评论页面会重复

Sun, 07/31/2011 - 12:03 — sunxhiner

我现在也在抓取新浪有关动车追尾的评论。有的重复是因为在翻页抓取时，在抓到一定页数时，新浪页面上会显示“正在读取帖子数据...”，这时DataScraper抓取时，下面页数是一直在变化，但由于页面内容还没有变化，因为一直在显示“正在读取帖子数据...”，这时抓下来的数据还是原来那个页面的内容，而不是最新页面的内容，这样最新页面的内容就会被漏掉。因而抓下来的数据会有重复。。
不知道该怎么解决呀