imwprobot(蜂集)是一款wordpress采集插件。模块化的设计使得该插件十分易用,丰富站点内容必备的一款插件!
介绍
imwprobot(蜂集)是imwpweb开发的一款全自动的智能采集插件,和其他的采集工具不同的是,imwprobot本身已经完成了大部分工作,你需要的仅仅是找到一个或者多个采集站点,添加一个url就可以开始采集。
imwprobot可以在没有任何规则下识别绝大多数网站的标题和正文,可以说是市面上使用最简单的采集器之一!当然,你可以添加你的规则,让采集器根据你的指令采集你想要的东西。
蜂集优势
- 后台全自动工作,无需人工职守。
- 智能正文提取算法,能够自动识别大部分网页的正文内容。
- 能够过滤文章中的链接,图片,列表,表格,表单。
- 修复网页中错乱的html,采集下来的内容一定是正确的html。
- 图片本地化,网页中的图片下载到本地。
- 分类自动创建,无需手动操作。
工作流程
蜂集工作流如下:
添加采集模块 -> 添加发布模块 -> 添加任务 -> 自动执行
1.采集模块
采集模块负责的是从目标站点上指定某些内容,采集下来。通俗的讲就是你想要采集目标网站上面的什么内容!
采集模块部分截图如下
采集模块支持一些预置的过滤器,过滤文章中不需要的内容,比如链接(包括文字链),比如列表,比如一些风格不好的html代码,以及一些干扰性的文字,这些都是无法在本地直接完成的,需要服务端才能够执行。
发布模块
发布模块负责的是将采集的内容通过一定的规则转换成符合你当前wordpress支持的字段。
任务模块
任务模块是执行的最小单元。通过添加任务模块,一个新的采集任务就完成了!
下载地址
安装蜂集之前必须先安装imwpf插件,该插件提供基础运行环境,可以查看:imwpf框架介绍。下载地址:底部获取
安装完imwpf就可以安装蜂集采集插件了,下载地址:底部获取
使用教程
蜂集采集器的使用教程可以前往:
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)