Web信息提取

新手:在线用户的采集数据结果在哪儿呢?

比如咱采集了淘宝的评论以及相关信息,是不是生成了文件?生成的文件在哪儿呢?能不能导出到本地计算机上?求解答,这个问题很让我困扰……

关于内容选择性爬取问题

你好,请问现在只想爬取包含指定关键词的网页内容,应该怎么进行设置呢,还是只能后期对结果进行处理?谢谢!!

不去除网页标签的网页提取

请问能不能让爬去的内容包含网页标签呢,即爬取的内容包含这些标签呢?谢谢

关于制定批量网页抓取问题

你好,请问这个软件可以让我们指定抓取的网页吗?例如,按照在metastudio中定义的规则抓取www.XXX.1.html至www.XXX.56987.html网页的内容,没有下一页这样的翻页机制,每个网页都是孤立的,请问可以实现吗?如果不能直接实现,那么如果用程序传参的话,怎么将网址传给datascraper进行爬取呢?谢谢!!

翻页抓取无法进行下去

我照着说明书上进行微博信息抓取,能够翻页,但是翻页之后抓取不继续了,儿时停在了页面开头不知道是怎么回事,求高手解答,谢谢。

某网站的抓取

你好,又来麻烦了,呵呵。今天在抓取一个网页的时候发现此网页的内容不能全部抓取下来,只能抓取部分,网站链接为http://www.365zn.com/mrl/mrl_A.htm,我先要把此网站下地所有人名抓取下来,但是发现只能抓取一行或者一列,不能整个抓取下来,我写的demo为jutirenming,谢谢指教。

step name="renewClue"和updateclue=true的区别是什么

两者不都是更新吗,有什么区别呢
弄了一晚上的周期自动爬取,我的renewclue和updateclue都设置为true,结果没执行一次,二三级scheme的线索就会累加。。。。

比如第一次执行,二级scheme的线索为9000,我关闭了,重新启动datascrapper,二级线索就变成18000了。
这是怎么回事呢?

关于周期提取的问题

你好,现在想请问一个问题:就是对于三级层次提取,第一级是人名列表,第二级是每个人所写得博客列表,第三级才是博文,这样的三级层次的周期提取,处在中间级的博客列表的自动更新是针对每一个人都有的,还是说只是针对第一个啊。我设置的是重复三次就停止,也就是说这个重复三次指的是每一个人的列表重复三次,还只是针对整个第二级的主题的所有列表的重复三次啊。谢谢。

关于新浪微博滚屏抓取

抓取新浪微博数据时,定义抓取规则时只使用了滚屏选项。
但是在抓取的时候发现并没有滚屏,抓取第一页需要用鼠标向下拖动页面才开始加载内容,即使加载完后,也不能翻页,请问这是怎么回事?
还有,那个More Page和Delay Radio该如何根据实际页面的加载情况设置(教程上没有讲透)?新浪微博的自动滚屏功能只加载了3次,每次15个item。需要加载完成之后,后面的翻页链接才能出现,会不会是这个原因导致不能翻页?

关于https加密网站信息提取的问题

我尝试提取加密网站www.xing.com的用户关系链的数据,就是沿着用户关系链去抓其他用户的详情。抓取页面如下:
https://www.xing.com/app/profile?op=contacts;name=mao%E6%AF%9B_mao%E6%AF...
但发现在层次抓取的时候,第一个theme的clue无法被第二个theme识别(第二个theme的clue不增加),相应工程在xing_network和xing_profile。
这是否与https协议有关?

Syndicate content