imwprobot(蜂集)是一款wordpress采集插件。模块化的设计使得该插件十分易用,丰富站点内容必备的一款插件!

介绍

imwprobot(蜂集)是imwpweb开发的一款全自动的智能采集插件,和其他的采集工具不同的是,imwprobot本身已经完成了大部分工作,你需要的仅仅是找到一个或者多个采集站点,添加一个url就可以开始采集。

imwprobot可以在没有任何规则下识别绝大多数网站的标题和正文,可以说是市面上使用最简单的采集器之一!当然,你可以添加你的规则,让采集器根据你的指令采集你想要的东西。

蜂集优势

  1. 后台全自动工作,无需人工职守。
  2. 智能正文提取算法,能够自动识别大部分网页的正文内容。
  3. 能够过滤文章中的链接,图片,列表,表格,表单。
  4. 修复网页中错乱的html,采集下来的内容一定是正确的html。
  5. 图片本地化,网页中的图片下载到本地。
  6. 分类自动创建,无需手动操作。

工作流程

蜂集工作流如下:

添加采集模块 -> 添加发布模块 -> 添加任务 -> 自动执行

1.采集模块

采集模块负责的是从目标站点上指定某些内容,采集下来。通俗的讲就是你想要采集目标网站上面的什么内容!

采集模块部分截图如下

采集模块支持一些预置的过滤器,过滤文章中不需要的内容,比如链接(包括文字链),比如列表,比如一些风格不好的html代码,以及一些干扰性的文字,这些都是无法在本地直接完成的,需要服务端才能够执行。

发布模块

发布模块负责的是将采集的内容通过一定的规则转换成符合你当前wordpress支持的字段。

任务模块

任务模块是执行的最小单元。通过添加任务模块,一个新的采集任务就完成了!

下载地址

安装蜂集之前必须先安装imwpf插件,该插件提供基础运行环境,可以查看:imwpf框架介绍。下载地址:底部获取

安装完imwpf就可以安装蜂集采集插件了,下载地址:底部获取

使用教程

蜂集采集器的使用教程可以前往:

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。