各位老板,采集插件已完成 功能增强

天空_1525687614 1月前 1539

说明:

采集插件是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。 

采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集操作。 


一、采集流程
 
简单的讲有三个步骤:
1、添加采集点,填写采集规则。
2、采集网址,采集内容

3、发布内容到指定版块


以采集某站未解之谜栏目(http://www.83133.com/weijiezhimi/list-199-2.html)为例,作一下详细流程介绍。


实例说明:


目标:采集83133未解之谜数据到系统 默认版块 中。 

目标网址:http://www.83133.com/weijiezhimi/list-199-2.html


1、添加采集点
 
1.1 网址规则配置



查看要采集的目标网址源代码,查找到要采集网址的开始点和结束点(这二个点要有在整个源代码里具有唯一性)。更进一步缩小采集网址搜索范围。



测试你的网址采集规则是否正确,如下图所示


1.2 内容规则配置 

内容规则这里看起来比较复杂,其实很简单。采集内容网址:
http://www.83133.com/doc/344341.html 的内容采集规则,请你打开这个网址,然后页面空白处右键->查看源文件搜索标题和内容的开始边界。

标题采集配置:

从网页<title></title>里取标题,并去除不需要的字符。如下图

注:

"[内容]"作为通配符

_百山探索 将会被替换为空


内容采集配置:
 

内容都包含在 <div class="art-main mt10" id="art_main"> </div> 之间,而且这个结点(id="art_main"),在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图  


注:

内容的a标签和链接将会被替换为空


1.3 高级设置
 

可设置是否把图片下载到服务器上,是否打水印等配置。

注:

1.图片水印:图片路径相对于网站根目录;填写文字将使用文字水印

2.发帖用户ID:10,20,30,40,50 导入帖子的时候将随机取一个作为发帖人

3.发帖间隔时间:

 例:1 ;如果写的 10 ,假如导入了3篇帖子

第一篇发帖时间为:2018-06-26 09:00:00

第二篇发帖时间为:2018-06-26 09:10:00

第二篇发帖时间为:2018-06-26 09:20:00

如果当前时间小于发帖时间,前台将暂时显示负数,直到当前时间大于发帖时间恢复正常


2、采集网址,采集内容

采集规则配好以后,即可进行网址的采集,然后进行内容的采集。

3、发布内容到指定版块

选择导入的版块

4、定时发布

升级定时发布

发布时间示例:

10:00|10

16:30|5

20:45|2

注:每天上午10点发布10篇,下午16点30发布5篇,晚上20点45 发布2篇,根据计划任务设置会有响应的延迟


5、体验地址

http://xiuno.swoole.net/

账号:test

密码:123456


6、计划任务发帖接口

http://xx.com/skycollection-post.htm

最后于 12天前 被天空_1525687614编辑 ,原因: 免费下载
上传的附件:
最新回复 (32)
返回
发新帖