我之前爬取过树状论坛的一些内容,但是爬取回帖人时,所有二级以上的回复都当做二级回复一起爬取下来了,因为二级以上的回帖网页结构都是一样的,唯一的区别是缩进的字符数,但是metastudio识别不出缩进的字符数。我爬取的是新浪论坛,想问Fuller metaseeker能爬取多级的回复吗,能不能在爬取的时候就将发帖人和回帖人的关系对应起来吗?
我之前爬取过树状论坛的一些内容,但是爬取回帖人时,所有二级以上的回复都当做二级回复一起爬取下来了,因为二级以上的回帖网页结构都是一样的,唯一的区别是缩进的字符数,但是metastudio识别不出缩进的字符数。我爬取的是新浪论坛,想问Fuller metaseeker能爬取多级的回复吗,能不能在爬取的时候就将发帖人和回帖人的关系对应起来吗?
两级爬取:
ssq_byr_forum_kaoyan_list爬取版面帖子列表
ssq_byr_forum_kaoyan_post爬取每个帖子具体的文章列表
crontab.xml文件如下:
true
5
3600
false
ssq_byr_forum_kaoyan_list
大侠,这个网页http://www.ccjsj.gov.cn/jsj/spfcxx.jsp#
不知道,怎样抓取楼盘名称、今日销售套数/面积、今日销售均价这三项。之前看过,http://www.gooseeker.com/cn/node/document/metastudio/operationv4/enhance这个教程,但是现在不知道XPATH应该怎样写,是利用页面上的文字“楼盘名称、今日销售套数/面积、今日销售均价”?不再同一行,怎么写啊?另外怎样做样例复制品把剩下都抓下来呢?
我试了好像不行,您帮看看问题出在哪里?
我从 (上级)A页面:新浪名人堂列表 进入到 (下级)B页面:名人微博
在 B页面中有一排选项分别是:全部 原创 图片 超链接 。。。。
我希望再进入B页面中的“原创”选项作为下一级线索采集数据:A___B___原创
但是进不去,原创的href是个相对链接地址,我没办法再进入下一级原创
请问,我该怎么做?
谢谢
就是超链接地址不是绝对路径,而是类似相对路径,比如地址=\****?****\***=1
***就是省略的字母和数字了。如果我要做分级抓取,这样的地址该如何影射成下级抓取的地址呢?
新浪微薄有全部和原创两个标签,我想统计全部数和原创数,只要数目,不要内容,不想一页页翻,本来想根据下面的翻页条看有多少页,大概统计下,但是现在页数都不是完全显示的,该怎么办呢?谢谢
您好:
主题是T3.22.1~Tm3.22.5,五个采用批量抓取,进行不到一会就卡主了,显示timeout to load page请问如何解决这个问题。
两个批量抓取的其中一个设置如下:
“
true
2
10800
false
2
10
T3.22.1
T3.22.1
您好:
主题是T3.22.1~Tm3.22.5,五个采用批量抓取,进行不到一会就卡主了,显示timeout to load page请问如何解决这个问题。
两个批量抓取的设置如下:
<?xml version="1.0" encoding="UTF-8"?>
true
2
10800
false
2
10
T3.22.1
提示说URL过长了,当把所有的参数设置完成后,保存规则时就出错,自动退出了。
类似情况该如何解决呢?