Web信息提取 | GooSeeker

Web信息提取

如何使用metaseeker爬取树状结构论坛

Thu, 06/28/2012 - 14:26 — azhu

我之前爬取过树状论坛的一些内容，但是爬取回帖人时，所有二级以上的回复都当做二级回复一起爬取下来了，因为二级以上的回帖网页结构都是一样的，唯一的区别是缩进的字符数，但是metastudio识别不出缩进的字符数。我爬取的是新浪论坛，想问Fuller metaseeker能爬取多级的回复吗，能不能在爬取的时候就将发帖人和回帖人的关系对应起来吗？

Web信息提取

6 comments

周期爬取论坛一个版面的问题

Wed, 05/30/2012 - 14:48 — songsiqi

两级爬取：
ssq_byr_forum_kaoyan_list爬取版面帖子列表
ssq_byr_forum_kaoyan_post爬取每个帖子具体的文章列表

crontab.xml文件如下：

true
5

3600
false

ssq_byr_forum_kaoyan_list

Web信息提取

有没有做舆情监控的大侠~~

Mon, 04/16/2012 - 16:59 — wzwking

想基于关键字的搜索定制，这个有什么思路？有没有人之前做过类似的啊，求教啊~

Web信息提取

1 comment

DATAGRID表格数据怎样抓取？

Thu, 04/05/2012 - 00:03 — rockyhuang

大侠，这个网页http://www.ccjsj.gov.cn/jsj/spfcxx.jsp#
不知道，怎样抓取楼盘名称、今日销售套数/面积、今日销售均价这三项。之前看过，http://www.gooseeker.com/cn/node/document/metastudio/operationv4/enhance这个教程，但是现在不知道XPATH应该怎样写，是利用页面上的文字“楼盘名称、今日销售套数/面积、今日销售均价”?不再同一行，怎么写啊？另外怎样做样例复制品把剩下都抓下来呢？

Web信息提取

8 comments

RE:这样的超连接地址如何抓取

Tue, 04/03/2012 - 21:12 — snowvivid1980

我试了好像不行，您帮看看问题出在哪里？

我从（上级）A页面：新浪名人堂列表进入到（下级）B页面：名人微博

在 B页面中有一排选项分别是：全部原创图片超链接。。。。

我希望再进入B页面中的“原创”选项作为下一级线索采集数据：A___B___原创

但是进不去，原创的href是个相对链接地址，我没办法再进入下一级原创

请问，我该怎么做？

谢谢

Web信息提取

1 comment

这样的超链接地址如何抓取

Mon, 04/02/2012 - 13:24 — snowvivid1980

就是超链接地址不是绝对路径，而是类似相对路径，比如地址=\****?****\***=1
***就是省略的字母和数字了。如果我要做分级抓取，这样的地址该如何影射成下级抓取的地址呢？

Web信息提取

1 comment

新浪原创微博数如何统计

Fri, 03/30/2012 - 22:01 — snowvivid1980

新浪微薄有全部和原创两个标签，我想统计全部数和原创数，只要数目，不要内容，不想一页页翻，本来想根据下面的翻页条看有多少页，大概统计下，但是现在页数都不是完全显示的，该怎么办呢？谢谢

Web信息提取

1 comment

抓取新浪微博总是出现timeout to load page

Thu, 03/29/2012 - 15:41 — zjl

您好：

主题是T3.22.1~Tm3.22.5,五个采用批量抓取，进行不到一会就卡主了，显示timeout to load page请问如何解决这个问题。
两个批量抓取的其中一个设置如下：
“

true
2
10800
false
2
10

T3.22.1

T3.22.1

Web信息提取

抓取新浪微博总是出现timeout to load page

Thu, 03/29/2012 - 15:38 — zjl

您好：

主题是T3.22.1~Tm3.22.5,五个采用批量抓取，进行不到一会就卡主了，显示timeout to load page请问如何解决这个问题。
两个批量抓取的设置如下：
<?xml version="1.0" encoding="UTF-8"?>

true
2
10800
false
2
10

T3.22.1

Web信息提取

Login to post comments
Read more

目标页面URL过长，提示截断失败，然后保存规则时自动退出，该如何解决呢？

Wed, 03/28/2012 - 16:11 — luoke

提示说URL过长了，当把所有的参数设置完成后，保存规则时就出错，自动退出了。
类似情况该如何解决呢？

Web信息提取

3 comments