视频教程
网钛文章管理系统采集教程(视频)
视频教程:
图文教程:
其实采集可以这么理解,定义头和尾,除了在截取链接不需要检测,在其它地方你定义的头和尾,在同/个html表里不能有相同的,为什么不能有相同的呢?是因为采集的每一步(除了截取链接外)都是根据你所定义的头和尾来截取页面内容的。所以你在定义头和尾不仅不能有相同的,还要尽可能地把不需要的内容排除开。如果你理解了这个定义头和尾,基本上对于简单的页面是能采集的。/面我以一个实例来说明一下:
一、设置采集模块
在后台点击【采集管理】,出现的是【新增采集模块】的内容,主要设置下载的大小和超时时间,以及给采集项目分类,便于查询,目前作用不是很大。
二、设置采集规则
1、点击【新增采集项目】,进入采集项目的第一步,我们以采集SOHU的国内IT信息为例,如图设置:
1)项目名称:给采集项目命名
2)所属模块:采集数据入库后,放入哪个栏目
3)目标页面编码:国内的网站选择GB2312,国外网站选择UTF-8,台湾的繁体字网站选择BIG5;
4)采集网址URL:就是要采集的列表页面,这一步很关键,这一步关系到你能否采集完所有内容。一般你进入采集页面先判断一下是不是有多页,如果有多页你进入第二页和第一页是不是有规律变化,比如是:xxxx_1.htm,xxx_2.htm,特别注意数字,如果第一页开始就有_id的规律,那就把第一页作为列表网址,如果第一页与第二页没相关规律,而是从第二页开始才能这样的规律,那将第二页作为列表网址,第一页放到一边,等所有数据采集完了,再来采集单独页面,反正以后也只采集第一页,为啥?因为一般更新的都在第一页。
5)分页/多页采集设置:若只采集一个页面,选择“不作设置”,采集多页面,可选择其他3项;
6)采集属性:“立即入库”指一采集就在前台显示,建议此项不要选择,没选择此项,采集结果将进入【采集结果】页面, 后再入库;“保存远程图片”指把图片保存到本地;“倒序采集”指采集结果的排序顺序,打勾它,采集记录顺序和采集列表页一致。
7)状态:指入库后文章的状态,即文章在前台是显示,还是隐藏;
8)其它设置项 是按字面的意思,一般默认设置就行,就不详细说了
2、列表链接设置
1)打开采集页面,如http://it.sohu.com/itguonei.shtml,
鼠标右击页面,弹出窗口,选择【查看源代码(V)】,在源代码中找到所要采集的列表,如下图,
找出“列表开始代码”、“列表结束代码”、“链接开始代码”、“链接结束代码”,最后两项一般默认就行,然后点击“下一步”。
3、正文内容设置
打开列表页中的一个内容页,如http://it.sohu.com/20101104/n277154569.shtml,鼠标右击页面,弹出窗口,选择【查看源代码(V)】,在源代码中找到所要采集的“标题开始代码”、“标题结束代码”、“正文开始代码”、“正文结束代码”,其他几个设置项视需要而定,可默认,然后点击“下一步”。
4、正文内容采集效果
点击“点击查看正文内容采集效果”,出现如下页面,那采集结果正常。
点击“完成”后,会跳转到【采集项目管理】页面
注:若采集结果有问题,修改“列表链接设置”、“正文内容设置”中的起始、终止代码,多试几次,就可得出所要的内容了,有的页面可能无法采集,不同所有的页面都可以采集的。
三、采集项目管理
现在就可以开始采集了,点击右边的采集按钮,进行单个采集,或者勾选几个要采集的项目,点击“批量采集”按钮。建议上面设置项中不要勾选“立即入库”,担心采集有异常,这样采集结束后,采集内容将在【采集结果】页面中显示,检查没问题后,再点击入库,最后到前台检查下数据,这样整个采集过程就完成了。
下一篇:没有了
相关文章
-
-
10-16关于网钛CMS的网站备份(适合新手)
-
相关评论
本栏最新更新
-
11-20VPS服务器教程全集
-
10-02【最全】网钛CMS视频教程
-
07-09【OTCMS教程】第三十六讲:独创的在线升级
-
06-02【OTCMS教程】第三十五讲:管理员专区
-
06-02【OTCMS教程】第三十四讲:用户管理
-
05-01【OTCMS教程】第三十一讲:会员管理
-
05-01【OTCMS教程】第三十讲:特定文档编辑
-
05-01【OTCMS教程】第二十九讲:站长工具
-
05-01【OTCMS教程】第二十八讲:网站地图
-
05-01【OTCMS教程】第二十七讲:外部调用