如何解决搜索爬虫高频次抓取导致服务器崩溃的问题

2020年10月20日18:53:16建站评论2020年10月20日

如何解决搜索爬虫高频次抓取导致服务器崩溃的问题

首先声明一点，如果网站能够承受爬虫的高频次访问，那是一件好事，这样有利于网站页面收录，提升网站来自搜索的访问量。但一旦承受不了，我们可以进行如下的操作。

方法一

第一步，注册并登录百度站长平台

第二步，提交网站并验证归属，具体验证网站归属方法可见帮助文档
第三步，选择左侧“站点管理”
第四步，在已认证归属的站点列表中选择需要查询的站点
第五步，选择左侧“抓取压力反馈”
第六步，得到站点抓取压力曲线图及压力调整入口页面
第七步，选取站点压力反馈，调整滑块至您想要压力值，提交反馈
（注：当前数值，是网站当前在百度的有效抓取压力上限值。压力上限是指一天内baiduspider抓取的最多网页数量。）
第八步，查看反馈记录，百度会以最新的反馈信息为准，对网站的抓取压力进行调整

方法二
优化robots.txt

很多建站新手对robots.txt文件的重要作用不是很清楚，利用这篇文章普及一下WordPress站点robots.txt文件编写知识。

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。文章源自公式库网-https://www.gongshiku.com/html/202010/ruhejiejuesousuopachonggaopincizhuaqudaozhifuwuqibengkuidewenti.html

搜索引擎机器人访问网站时，首先会寻找站点根目录有没有 robots.txt文件，如果有这个文件就根据文件的内容确定收录范围，如果没有就按默认访问以及收录所有页面。另外，当搜索蜘蛛发现不存在robots.txt文件时，会产生一个404错误日志在服务器上，从而增加服务器的负担，因此为站点添加一个robots.txt文件还是很重要的。文章源自公式库网-https://www.gongshiku.com/html/202010/ruhejiejuesousuopachonggaopincizhuaqudaozhifuwuqibengkuidewenti.html

知道Robots协议的作用后，下面具体说一下WordPress站点如何编写robots.txt文件。文章源自公式库网-https://www.gongshiku.com/html/202010/ruhejiejuesousuopachonggaopincizhuaqudaozhifuwuqibengkuidewenti.html

WordPress站点默认在浏览器中输入：http://你的域名/robots.txt，会显示如下内容：文章源自公式库网-https://www.gongshiku.com/html/202010/ruhejiejuesousuopachonggaopincizhuaqudaozhifuwuqibengkuidewenti.html

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

这是由WordPress自动生成的，意思是告诉搜索引擎不要抓取后台程序文件。文章源自公式库网-https://www.gongshiku.com/html/202010/ruhejiejuesousuopachonggaopincizhuaqudaozhifuwuqibengkuidewenti.html

但这是远远不够的，比较完整的WordPress站点robots.txt文件内容如下：文章源自公式库网-https://www.gongshiku.com/html/202010/ruhejiejuesousuopachonggaopincizhuaqudaozhifuwuqibengkuidewenti.html

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /*?*
Disallow: /attachment/

使用方法：新建一个名称为robots.txt文本文件，将上面的内容放进去，然后上传到网站根目录即可。文章源自公式库网-https://www.gongshiku.com/html/202010/ruhejiejuesousuopachonggaopincizhuaqudaozhifuwuqibengkuidewenti.html

下面分别解释一下各项的作用：文章源自公式库网-https://www.gongshiku.com/html/202010/ruhejiejuesousuopachonggaopincizhuaqudaozhifuwuqibengkuidewenti.html

1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/文章源自公式库网-https://www.gongshiku.com/html/202010/ruhejiejuesousuopachonggaopincizhuaqudaozhifuwuqibengkuidewenti.html

用于告诉搜索引擎不要抓取后台程序文件页面。文章源自公式库网-https://www.gongshiku.com/html/202010/ruhejiejuesousuopachonggaopincizhuaqudaozhifuwuqibengkuidewenti.html

2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*

禁止搜索引擎抓取评论分页等相关链接。

3、Disallow: /category/*/page/和Disallow: /tag/*/page/

禁止搜索引擎抓取收录分类和标签的分页。

4、Disallow: /*/trackback

禁止搜索引擎抓取收录trackback等垃圾信息

5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed

禁止搜索引擎抓取收录feed链接，feed只用于订阅本站，与搜索引擎无关。

6、Disallow: /?s=*和Disallow: /*/?s=*\

禁止搜索引擎抓取站内搜索结果

7、Disallow: /*?*

禁止搜索抓取动态页面

8、Disallow: /attachment/

禁止搜索引擎抓取附件页面，比如毫无意义的图片附件页面。

上面只是些基本的写法，当然还有很多，不过够用了。

运营不易，

感谢支持！

我的微信

我的微信公众号

我的微信公众号扫一扫

我的公众号

如何解决搜索爬虫高频次抓取导致服务器崩溃的问题

Discuz提速优化技巧

快速安装系统，解决提示“安装程序无法创建新的系统分区”

学习强国题库含答案争上游制胜法宝（1535题）

多原子离子书名/物质英文名称一键合成计算器和常用化学品的名称对照

最快最安全修改wordpress管理员用户名的方法

wordpress升级https最简单方法

宝塔启用memcached后CPU、负载飙升网站打不开解决方法

云服务器迁移后，大量出现404如何解决

记录一次linux宝塔负载状态、cup满载解决过程

分享给会员轻松玩转个人服务器PDF电子书下载

wordpress站点接入百家号插件

网站无法启动，万维网发布服务(w3svc)已停止。

搭建ftp传资料之IIS 创建FTP 包括ftp的账号密码设置

不跳转默认页，显示“/”应用程序中的服务器错误。没有对“C:\Windows\Microsoft.NET\Framework64\v4.0.30319\Temporary ASP.NET Files访问权限

加载中...

发表评论

热门搜索

发表评论