DATAGRID表格数据怎样抓取?

大侠,这个网页http://www.ccjsj.gov.cn/jsj/spfcxx.jsp#
不知道,怎样抓取楼盘名称、今日销售套数/面积、今日销售均价这三项。之前看过,http://www.gooseeker.com/cn/node/document/metastudio/operationv4/enhance这个教程,但是现在不知道XPATH应该怎样写,是利用页面上的文字“楼盘名称、今日销售套数/面积、今日销售均价”?不再同一行,怎么写啊?另外怎样做样例复制品把剩下都抓下来呢?

抓取楼盘信息

我分析了一下网页,是一个普通的表格,只是套在iframe中,抓取方法不受影响,和抓取普通网页一样简单。

楼盘信息的抓取规则

主题名是demo_ccjsj,能够翻页将所有楼盘抓下来

我按照你的模版改了

我按照你的模版改了一下,变成demo_ccjsj1,实现了功能。另外想问一下,我希望把均价是空的整行数据都不要,只保留当天有成交的记录,请问怎样操作?

感谢大侠!

这几天没有登录论坛,不知道大侠已经出手相救。我还自己在琢磨,你提供的我还在消化当中。我自己做了一个www.ccjsj.gov.cn,请帮忙看一下。经过多次试验(瞎蒙的,现在对模版套模版的感念还是比较模糊),我终于把第2、6、7格的数据提取出来了,但是怎么样把第7格是空的那一行整行清除掉呢?另外,想在数据中间加分隔好,不然连在一起看不见。最后就是使用DATASCAPER查找,每一个分页就产生一个XML文件,最后产生了N个XML文件,能不能操作一次所有提取的数据就汇总到一个XML文件里面?

按表格抓取楼盘信息

我看了主题www.ccjsj.gov.cn,还是加载我定义的那个信息结构吧,是按照字段分开提取的,你这个信息结构是将整块提取下来,提取结果不好用计算机进行处理。

DataScraper抓取结果是每个网页一个XML文件,通常,我们用程序将XML文件解析开并且存入数据库中

表格数据抓取

郁闷中,我也想抓表格,test this能出来第一行,test all还是出来第一行!

我弄了一个新的主题ww

我弄了一个新的主题www.ccjsj.gov.cn1,终于精确过滤到我想要的内容,但是每一个分页生成一个文件,大侠,能不能增加一个功能,合成一个XML文件啊?我不需要把数据加入到数据库里面,只是汇总看一下就行。

DataScraper强调性能和稳定性

DataScraper强调性能和稳定性,所以,做的工作尽量单纯,合并XML文件我们用另外的程序实现