Web信息提取

你好，请问这个软件可以让我们指定抓取的网页吗？例如，按照在metastudio中定义的规则抓取www.XXX.1.html至www.XXX.56987.html网页的内容，没有下一页这样的翻页机制，每个网页都是孤立的，请问可以实现吗？如果不能直接实现，那么如果用程序传参的话，怎么将网址传给datascraper进行爬取呢？谢谢！！

Web信息提取

3 comments

翻页抓取无法进行下去

Sat, 11/19/2011 - 13:17 — yixin5690

我照着说明书上进行微博信息抓取，能够翻页，但是翻页之后抓取不继续了，儿时停在了页面开头不知道是怎么回事，求高手解答，谢谢。

Web信息提取

18 comments

某网站的抓取

Thu, 11/10/2011 - 14:52 — ylbaobao

你好，又来麻烦了，呵呵。今天在抓取一个网页的时候发现此网页的内容不能全部抓取下来，只能抓取部分，网站链接为http://www.365zn.com/mrl/mrl_A.htm，我先要把此网站下地所有人名抓取下来，但是发现只能抓取一行或者一列，不能整个抓取下来，我写的demo为jutirenming，谢谢指教。

Web信息提取

1 comment

step name="renewClue"和updateclue=true的区别是什么

Wed, 11/02/2011 - 00:04 — kuan

两者不都是更新吗，有什么区别呢
弄了一晚上的周期自动爬取，我的renewclue和updateclue都设置为true，结果没执行一次，二三级scheme的线索就会累加。。。。

比如第一次执行，二级scheme的线索为9000，我关闭了，重新启动datascrapper，二级线索就变成18000了。
这是怎么回事呢?

Web信息提取

1 comment

关于周期提取的问题

Sun, 10/23/2011 - 16:04 — ylbaobao

你好，现在想请问一个问题：就是对于三级层次提取，第一级是人名列表，第二级是每个人所写得博客列表，第三级才是博文，这样的三级层次的周期提取，处在中间级的博客列表的自动更新是针对每一个人都有的，还是说只是针对第一个啊。我设置的是重复三次就停止，也就是说这个重复三次指的是每一个人的列表重复三次，还只是针对整个第二级的主题的所有列表的重复三次啊。谢谢。

Web信息提取

7 comments

抓取新浪微博数据时，定义抓取规则时只使用了滚屏选项。
但是在抓取的时候发现并没有滚屏，抓取第一页需要用鼠标向下拖动页面才开始加载内容，即使加载完后，也不能翻页，请问这是怎么回事？
还有，那个More Page和Delay Radio该如何根据实际页面的加载情况设置（教程上没有讲透）？新浪微博的自动滚屏功能只加载了3次，每次15个item。需要加载完成之后，后面的翻页链接才能出现，会不会是这个原因导致不能翻页？

Web信息提取

关于https加密网站信息提取的问题

Sun, 10/09/2011 - 11:41 — abelzhao

我尝试提取加密网站www.xing.com的用户关系链的数据，就是沿着用户关系链去抓其他用户的详情。抓取页面如下：
https://www.xing.com/app/profile?op=contacts;name=mao%E6%AF%9B_mao%E6%AF...
但发现在层次抓取的时候，第一个theme的clue无法被第二个theme识别（第二个theme的clue不增加），相应工程在xing_network和xing_profile。
这是否与https协议有关？

Web信息提取

4 comments

GooSeeker

新手：在线用户的采集数据结果在哪儿呢？

关于内容选择性爬取问题

不去除网页标签的网页提取

关于制定批量网页抓取问题

翻页抓取无法进行下去

某网站的抓取

step name="renewClue"和updateclue=true的区别是什么

关于周期提取的问题

关于新浪微博滚屏抓取

关于https加密网站信息提取的问题

切换语言