Web信息提取

如何使用metaseeker爬取树状结构论坛

我之前爬取过树状论坛的一些内容,但是爬取回帖人时,所有二级以上的回复都当做二级回复一起爬取下来了,因为二级以上的回帖网页结构都是一样的,唯一的区别是缩进的字符数,但是metastudio识别不出缩进的字符数。我爬取的是新浪论坛,想问Fuller metaseeker能爬取多级的回复吗,能不能在爬取的时候就将发帖人和回帖人的关系对应起来吗?

周期爬取论坛一个版面的问题

两级爬取:
ssq_byr_forum_kaoyan_list爬取版面帖子列表
ssq_byr_forum_kaoyan_post爬取每个帖子具体的文章列表

crontab.xml文件如下:

true
5

3600
false

ssq_byr_forum_kaoyan_list

有没有做舆情监控的大侠~~

想基于关键字的搜索定制,这个有什么思路?有没有人之前做过类似的啊,求教啊~

DATAGRID表格数据怎样抓取?

大侠,这个网页http://www.ccjsj.gov.cn/jsj/spfcxx.jsp#
不知道,怎样抓取楼盘名称、今日销售套数/面积、今日销售均价这三项。之前看过,http://www.gooseeker.com/cn/node/document/metastudio/operationv4/enhance这个教程,但是现在不知道XPATH应该怎样写,是利用页面上的文字“楼盘名称、今日销售套数/面积、今日销售均价”?不再同一行,怎么写啊?另外怎样做样例复制品把剩下都抓下来呢?

RE:这样的超连接地址如何抓取

我试了好像不行,您帮看看问题出在哪里?

我从 (上级)A页面:新浪名人堂列表 进入到 (下级)B页面:名人微博

在 B页面中有一排选项分别是:全部 原创 图片 超链接 。。。。

我希望再进入B页面中的“原创”选项作为下一级线索采集数据:A___B___原创

但是进不去,原创的href是个相对链接地址,我没办法再进入下一级原创

请问,我该怎么做?

谢谢

这样的超链接地址如何抓取

就是超链接地址不是绝对路径,而是类似相对路径,比如地址=\****?****\***=1
***就是省略的字母和数字了。如果我要做分级抓取,这样的地址该如何影射成下级抓取的地址呢?

新浪原创微博数如何统计

新浪微薄有全部和原创两个标签,我想统计全部数和原创数,只要数目,不要内容,不想一页页翻,本来想根据下面的翻页条看有多少页,大概统计下,但是现在页数都不是完全显示的,该怎么办呢?谢谢

抓取新浪微博总是出现timeout to load page

您好:

主题是T3.22.1~Tm3.22.5,五个采用批量抓取,进行不到一会就卡主了,显示timeout to load page请问如何解决这个问题。
两个批量抓取的其中一个设置如下:

true
2
10800
false
2
10

T3.22.1

T3.22.1

抓取新浪微博总是出现timeout to load page

您好:

主题是T3.22.1~Tm3.22.5,五个采用批量抓取,进行不到一会就卡主了,显示timeout to load page请问如何解决这个问题。
两个批量抓取的设置如下:
<?xml version="1.0" encoding="UTF-8"?>

true
2
10800
false
2
10

T3.22.1

目标页面URL过长,提示截断失败,然后保存规则时自动退出,该如何解决呢?

提示说URL过长了,当把所有的参数设置完成后,保存规则时就出错,自动退出了。
类似情况该如何解决呢?

Syndicate content