比如在一个人的微博中,我只想挖含有“国家”这个词的,有办法做到吗?
列表单页的信息以及翻页的基本信息都基本会抓取了
想问问根据ID 到详细的页面的里面的信息怎么抓取呢 ?! 希望提供一个思路。 谢谢!
请问Fuller 加载完网页后软件会自动生成序号,请问这个序号(节点号)可不可以当做信息抓取下来,作为信息属性显示在xml文件里?
1. 信息属性的 排序 看到后面 有序号 视乎建立起来 就无法更改了?
2. 软件好像有个小BUG FREEFORMAT 建立起来之后无法删除 ,虽然点右键有删除的选项, 但没有作用。
3. 建立好THEME 后上传到服务器后, 通过加载后 无法 修改更改 PATH PREFIX 路径。 虽然这2个页面 结构相同。
4. 本站的验证码 分了大小? 但字太小了 无法是登录还是发布信息, 都要输入很多次才能正确进入。
前段时间帮实习带我的姐姐在网上抓数,量还挺大,最后几千个XML文件要合并,被逼无奈,用XML写了一个简单的,本人也是刚学python,所有可能有更好的办法我还不知道,请大师走过路过不吝赐教!
最后感谢坛主提供的好工具,永远支持开源的东西!
以下是我写的代码,有注释,我用的python版本为2.7.
# -*- coding: cp936 -*-
def combiner(filePath,tag,saveTo):#变量为要合并的文件所在文件夹的地址;要提取合并的元素的上一级标签;要保存的文件的地址
如题
网址是:http://card.cgbchina.com.cn/Channel/1113912
IE正常可以翻页,但是火狐不行。像这种硬伤,能解决么?
网址是:http://card.cgbchina.com.cn/Channel/1113912
无论怎么定义,抓取来的都只是 2个重复的第一个TD 的内容。如下
页面:
a1 a2
b1 b2
c1 c2
结果:
a1,
a1,
b1,
b1,
c1,
c1
请问这种网页如何抓取比较好呢?
从新浪微博改到网易微博
网易微博抓取某微博帖子的内容和该贴下的所有评论列表,转发列表。使用主题:wangyi_weibo_one,wangyi_weibo_one_transmits
,wangyi_weibo_one_comments。
第一个问题:
我在MetaSeeker中定义了一个抓取主题进行分页抓取,第一次进入DataScraper的时候,右键->线索->统计能够看到线索状态start 1,另外的项都为0;
但是点击提取运行完一次抓取之后,再次右键->线索->统计可以看到线索状态变为其他 1,另外的项都为0;
这个时候如果我再次点击提取,DataScraper就没有任何反应了,右键->线索->激活,也改变不了线索的状态;
我应该如何操作,才能将这个抓取再次运行一遍呢?