网站首页 蜘蛛池 蜘蛛池教程 正文
本文为小旋风蜘蛛池写后台采集规则的全套教程,如您会使用火车头采集器或者简数采集器,则本教程跳过,简单易用。
本文仅以小旋风蜘蛛池X6版本为例,如有不明白的地方可以在文末留言。
一、小旋风蜘蛛池如何采集标题
标题库采集还是很简单的,只需要设置一下采集源的地址就可以。
首先添加采集规则,选择文章标题。
分页的写法:
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_{p,1,9,1}.shtml
{p,1,5,1}表示分页,参数:p后面的数字分别代表开始、结束、递增/减值,即{p,开始,结束,递增/减值}
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_3.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_4.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_5.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_6.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_7.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_8.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_9.shtml
测试规则的时候可以从网址匹配里看到。 添加后,测试看看效果:
二、小旋风蜘蛛池如何采集句子及文章
添加规则:选择整篇内容或者句子段落
比如说我们要采集新浪新闻,地址是:https://news.sina.com.cn/,就在列表配置选项的匹配网址里填上以上地址。
打开采集源的地址,选择其中一篇新闻。复制它的链接地址。
这里的是地址是:https://news.sina.com.cn/c/2019-05-03/doc-ihvhiewr9625655.shtml
然后,内容匹配规则可以这样写
https://news.sina.com.cn/(w)/(d)-(d)-(d)/(w)-(w).shtml
内容截取规则:
打开内容地址。右键查看源代码,找到内容区域。
然后内容截取规则可以这样写:
像新浪这种大型网站,它的内容页有些是不一样的,我们可以写多几个匹配。
保存后,看看效果。
注:您采集句子、文章的同时会自动采集到图片链接,所以不用担心您的内容库里面没有图片!
目录导航
一、小旋风蜘蛛池如何采集标题
二、小旋风蜘蛛池如何采集句子及文章
必看说明
- 本站中所有被研究的素材与信息全部来源于互联网,版权争议与本站无关。
- 本站文章或仅为文本内容原创,非程序原创。如有侵权、不妥之处,请联系站长第一时间删除。敬请谅解!
- 本站所有内容严格遵守国家法律的条例,所有研究的算法技术均来源于搜索引擎公开默认允许用户研究使用的接口。
- 阅读本文及获取资源前,请确保您已充分阅读并理解《访问曹操SEO网站需知:行为准则》。
- 本站分享的任何工具、程序仅供学习参考编写架构,仅可在本地的虚拟机内断网测试,严禁联网运行或上传搭建!
- 任何资源必须在下载后24个小时内,从电脑中彻底删除。不得传播或者用于其他任何用途!否则一切后果用户自负!
- 转载请注明 : 文章转载自 站群程序 小旋风蜘蛛池如何写采集规则?
- 本文标题:《小旋风蜘蛛池如何写采集规则?》
- 本文链接:http://www.zqcx.cn/542.html
猜你喜欢
- 2022-05-24 表哥泛目录蜘蛛统计插件
- 2022-04-14 冥王泛目录蜘蛛统计程序V1
- 2022-04-07 蜘蛛池制作tag标签页:自定义模板如何实现内页标题对应
- 2022-04-07 如何使用泛端口站群模式以及宝塔开启服务器端口
- 2022-04-07 小旋风插件:火车头采集器对接小旋风
- 2022-03-19 在小旋风蜘蛛池使用小说模板必须要配置的文件说明
- 2022-03-14 常见百度蜘蛛ip用途小结
- 2021-09-12 什么是蜘蛛池程序?
- 2021-06-28 自用便于统计搜狗蜘蛛的php代码
- 2021-06-28 自用便于统计360蜘蛛的php代码
你 发表评论:
欢迎- 8094℃遵纪守法:一起举报违法网址
- 7229℃警惕“冒用身份”的电信网络诈骗
- 7215℃备案域名的买卖管控会越来越严,不要尝试!
- 5100℃6月1日是《中华人民共和国网络安全法》实施五周年
- 4527℃违规事件分类与违规信息类型说明
- 4454℃关于严格遵守网络安全法规的公告
- 6440℃百度正打击构造虚假标题等违规站点
- 8176℃「百日行动」“断卡”行动持续发力
- 16125℃懒人开源站群程序V2.4.2:影视模板V2
- 15750℃通过Nginx配置增强网站安全性
- 14665℃多线程批量查询百家号文章存活情况
- 14486℃搜狐号安全系统升级通知
- 12302℃多线程批量查询链接收录情况(免代理)
- 12105℃百家号批量发布软件V1.8.5
- 11290℃企业网站安全漏洞应对:从修复到增强全方位安全新举措
- 8350℃CCSEO原创蜘蛛统计v1.3
- 12-09百家号批量发布软件V2.4.4
- 10-06关于SEO的一些真诚思考
- 08-18罪恶克星:不良网站举报工具填表版
- 05-01多线程批量查询百家号文章存活情况
- 04-22通过Nginx配置增强网站安全性
- 04-22企业网站安全漏洞应对:从修复到增强全方位安全新举措
- 04-21搜狐号安全系统升级通知
- 04-18多线程批量查询链接收录情况(免代理)
- 近期评论
- 文章归档
-
- 2024年10月 (1)
- 2024年8月 (1)
- 2024年5月 (1)
- 2024年4月 (10)
- 2024年3月 (6)
- 2024年1月 (2)
- 2023年12月 (4)
- 2023年11月 (2)
- 2023年10月 (7)
- 2023年9月 (24)
- 2023年8月 (6)
- 2023年7月 (20)
- 2023年6月 (13)
- 2023年5月 (26)
- 2023年4月 (48)
- 2023年3月 (21)
- 2023年2月 (15)
- 2023年1月 (10)
- 2022年12月 (10)
- 2022年11月 (3)
- 2022年10月 (28)
- 2022年9月 (37)
- 2022年8月 (16)
- 2022年7月 (23)
- 2022年6月 (24)
- 2022年5月 (10)
- 2022年4月 (53)
- 2022年3月 (67)
- 2022年2月 (3)
- 2022年1月 (4)
- 2021年12月 (24)
- 2021年11月 (18)
- 2021年10月 (3)
- 2021年9月 (22)
- 2021年8月 (60)
- 2021年7月 (3)
- 2021年6月 (16)
- 2021年5月 (25)
- 2021年4月 (1)
- 2021年3月 (39)
- 2021年1月 (7)
- 2020年12月 (19)
- 2020年11月 (11)
- 2020年10月 (49)
- 2020年9月 (114)
- 2020年8月 (63)
- 2020年7月 (28)
- 2020年6月 (50)
- 2020年5月 (124)
- 2020年4月 (83)
- 2020年3月 (91)
- 2020年2月 (81)
- 2020年1月 (18)
- 2019年12月 (79)
- 2019年11月 (16)
- 2019年10月 (35)
- 2019年9月 (3)
- 2017年12月 (1)
- 2017年11月 (203)
- 2017年10月 (155)
- 标签列表
- 站点信息
-
- 文章总数:2025
- 页面总数:7
- 分类总数:46
- 标签总数:339
- 评论总数:9366
- 浏览总数:5898972
已有5位网友发表了看法:
气味儿 评论于 [2023-02-09 21:53:17] 回复
采集到的文章发布后,无法正常在网站上显示,这要怎么解决
访客 评论于 [2023-07-10 15:48:36] 回复
伪静态没设置
曹操 评论于 [2023-02-14 18:27:18] 回复
采集规则模型选择错误?排查一下
访客 评论于 [2020-11-15 20:29:27] 回复
小旋风8.11批量采集只有四条请问是哪里设置错了吗
访客 评论于 [2020-04-06 20:22:52] 回复
正则截取怎么写