Web信息提取

如果我要按关键词扒帖子该怎么做呀?

比如在一个人的微博中,我只想挖含有“国家”这个词的,有办法做到吗?

按着ID 的序列抓取每个相同结构页面 里面的 信息 应该 怎么操作呢?

列表单页的信息以及翻页的基本信息都基本会抓取了

想问问根据ID 到详细的页面的里面的信息怎么抓取呢 ?! 希望提供一个思路。 谢谢!

关于class后面的序号可不可以爬取的问题

请问Fuller 加载完网页后软件会自动生成序号,请问这个序号(节点号)可不可以当做信息抓取下来,作为信息属性显示在xml文件里?

关于 几个小问题

1. 信息属性的 排序 看到后面 有序号 视乎建立起来 就无法更改了?
2. 软件好像有个小BUG FREEFORMAT 建立起来之后无法删除 ,虽然点右键有删除的选项, 但没有作用。
3. 建立好THEME 后上传到服务器后, 通过加载后 无法 修改更改 PATH PREFIX 路径。 虽然这2个页面 结构相同。
4. 本站的验证码 分了大小? 但字太小了 无法是登录还是发布信息, 都要输入很多次才能正确进入。

请问 这种循环 应该怎么设置 样例复制品呢? 哪个为一 哪个为二呢?

请问 同一页有 这种循环 应该 怎么设置“样例复制品”呢?

分享一个用python写的合并相同结构XML文件的小程序(支持python!)

前段时间帮实习带我的姐姐在网上抓数,量还挺大,最后几千个XML文件要合并,被逼无奈,用XML写了一个简单的,本人也是刚学python,所有可能有更好的办法我还不知道,请大师走过路过不吝赐教!
最后感谢坛主提供的好工具,永远支持开源的东西!

以下是我写的代码,有注释,我用的python版本为2.7.

# -*- coding: cp936 -*-
def combiner(filePath,tag,saveTo):#变量为要合并的文件所在文件夹的地址;要提取合并的元素的上一级标签;要保存的文件的地址

关于翻页到第二页后,firefox页面崩溃(IE正常),无法继续翻页的问题。

如题
网址是:http://card.cgbchina.com.cn/Channel/1113912
IE正常可以翻页,但是火狐不行。像这种硬伤,能解决么?

关于 一个 TR 中包含两个 TD ,TR本身是list,的抓取问题

网址是:http://card.cgbchina.com.cn/Channel/1113912

无论怎么定义,抓取来的都只是 2个重复的第一个TD 的内容。如下

页面:
a1 a2
b1 b2
c1 c2

结果:
a1,
a1,
b1,
b1,
c1,
c1

请问这种网页如何抓取比较好呢?

网易微博数据抓取-线索切换

从新浪微博改到网易微博
网易微博抓取某微博帖子的内容和该贴下的所有评论列表,转发列表。使用主题:wangyi_weibo_one,wangyi_weibo_one_transmits
,wangyi_weibo_one_comments。

关于线索重置提取&分层提取&周期提取

第一个问题:
我在MetaSeeker中定义了一个抓取主题进行分页抓取,第一次进入DataScraper的时候,右键->线索->统计能够看到线索状态start 1,另外的项都为0;
但是点击提取运行完一次抓取之后,再次右键->线索->统计可以看到线索状态变为其他 1,另外的项都为0;
这个时候如果我再次点击提取,DataScraper就没有任何反应了,右键->线索->激活,也改变不了线索的状态;
我应该如何操作,才能将这个抓取再次运行一遍呢?

Syndicate content