Web信息提取

1. 信息属性的排序看到后面有序号视乎建立起来就无法更改了？
2. 软件好像有个小BUG FREEFORMAT 建立起来之后无法删除，虽然点右键有删除的选项，但没有作用。
3. 建立好THEME 后上传到服务器后，通过加载后无法修改更改 PATH PREFIX 路径。虽然这2个页面结构相同。
4. 本站的验证码分了大小？但字太小了无法是登录还是发布信息，都要输入很多次才能正确进入。

Web信息提取

1 comment

请问这种循环应该怎么设置样例复制品呢？哪个为一哪个为二呢？

Wed, 08/29/2012 - 01:11 — sj2212

请问同一页有这种循环应该怎么设置“样例复制品”呢？

Web信息提取

2 comments

分享一个用python写的合并相同结构XML文件的小程序（支持python！）

Fri, 08/17/2012 - 21:31 — terry2

前段时间帮实习带我的姐姐在网上抓数，量还挺大，最后几千个XML文件要合并，被逼无奈，用XML写了一个简单的，本人也是刚学python，所有可能有更好的办法我还不知道，请大师走过路过不吝赐教！
最后感谢坛主提供的好工具，永远支持开源的东西！

以下是我写的代码，有注释，我用的python版本为2.7.

# -*- coding: cp936 -*-
def combiner(filePath,tag,saveTo):#变量为要合并的文件所在文件夹的地址；要提取合并的元素的上一级标签；要保存的文件的地址

Web信息提取

Login to post comments
Read more

关于翻页到第二页后，firefox页面崩溃（IE正常），无法继续翻页的问题。

Thu, 08/16/2012 - 09:57 — qgsmeagol

如题
网址是：http://card.cgbchina.com.cn/Channel/1113912
IE正常可以翻页，但是火狐不行。像这种硬伤，能解决么？

Web信息提取

3 comments

关于一个 TR 中包含两个 TD ，TR本身是list，的抓取问题

Wed, 08/15/2012 - 16:02 — qgsmeagol

网址是：http://card.cgbchina.com.cn/Channel/1113912

无论怎么定义，抓取来的都只是 2个重复的第一个TD 的内容。如下

页面：
a1 a2
b1 b2
c1 c2

结果：
a1,
a1,
b1,
b1,
c1,
c1

请问这种网页如何抓取比较好呢？

Web信息提取

1 comment

网易微博数据抓取-线索切换

Thu, 08/09/2012 - 12:23 — suqier

从新浪微博改到网易微博
网易微博抓取某微博帖子的内容和该贴下的所有评论列表，转发列表。使用主题：wangyi_weibo_one，wangyi_weibo_one_transmits
，wangyi_weibo_one_comments。

Web信息提取

第一个问题：
我在MetaSeeker中定义了一个抓取主题进行分页抓取，第一次进入DataScraper的时候，右键->线索->统计能够看到线索状态start 1，另外的项都为0；
但是点击提取运行完一次抓取之后，再次右键->线索->统计可以看到线索状态变为其他 1，另外的项都为0；
这个时候如果我再次点击提取，DataScraper就没有任何反应了，右键->线索->激活，也改变不了线索的状态；
我应该如何操作，才能将这个抓取再次运行一遍呢？

Web信息提取

GooSeeker

如果我要按关键词扒帖子该怎么做呀？

按着ID 的序列抓取每个相同结构页面里面的信息应该怎么操作呢？

关于class后面的序号可不可以爬取的问题

关于几个小问题

请问这种循环应该怎么设置样例复制品呢？哪个为一哪个为二呢？

分享一个用python写的合并相同结构XML文件的小程序（支持python！）

关于翻页到第二页后，firefox页面崩溃（IE正常），无法继续翻页的问题。

关于一个 TR 中包含两个 TD ，TR本身是list，的抓取问题

网易微博数据抓取-线索切换

关于线索重置提取&分层提取&周期提取

切换语言