Web信息提取

数据映射

数据映射是怎么回事啊?具体在呢么操作呢?在节点处右击有内容影射,freeformat映射的,可是没找见数据映射啊,求详解,我是初学者,谢谢了

数据存储

据存储下来的路径能改变吗?最好是能连接到数据库吗?

周期性抓取文件配置

周期性抓取中的thread name与theme两个命名有什么区别吗?分别用什么填写呢,着急求解

延长模式下线索抓不全

在对于和讯和其他网站抓取时,由于定义规则的时候用到延长模式,在抓取时会出现,线索抓不全的现象。比如本来一个线索有1000页,最后只抓了40页就直接跳到下个线索了,而且也不报错,不知道这个问题该怎么解决。(配置文件中已经写了关于延长模式的语句!)请求指教!

网站设置验证码作为反扒手段,怎么应付?

在抓取英文阿里的时候,没抓几分钟就在scraper的线程窗口中出现需要验证码,但是由于线索跳转的很快(类似于timeout很快,直接跳到下一个线索抓),指导剩余线索为0。中间跳转的时候都来不及手动的填写验证码,就直接报错了。具体日志窗口显示错误如下"suitable data schema cannot be found for clueid 48615823 in 0st nthread cycle"。先配置文件中,timeout时间设置比较长似乎也没什么用,不知道有什么解决方法。求指教啊~

关于天涯论坛抓取规则问题

首先非常感谢fuller给网友的耐心回答,真的好感激!
在抓取天涯论坛中,我遇到了一下几个问题,请求fuller给予指点:

如何利用文本内容构建自动搜索

管理员你好,
我想利用metaseeker中提取出的商品名(文本内容,而不是url)在另外一个网站中进行搜索,可以利用在线版软件做到吗?谢谢!

帮忙看看这个信息结构

HLSEUC

为什么我只能抓一页半的内容 就自动结束了??不能继续翻页呢?
结束时的2个标志为 FLINE 和FIN

查看更多

如题 对于翻页不是下一页这种的 而是采用了“查看更多”这种形式的应该如何来抓取

映射会自动改变

为什么我的一个内容映射,每次重新加载后都会改变?其他的都没事

Syndicate content