沉淀SEO

您现在的位置是:首页 > SEO资讯

SEO资讯

robots文件如何写比较好?写robots文件时需要注意事项

2023-04-21 16:33:49 SEO资讯
robots文件如何写比较好?写robots文件时需要注意事项一、什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息.当spider访问一个网站时,它将首先检查网站的根域下是否有一个叫做robots的网站.txt的纯文本文件.您可以在您的网站上创建纯文本文件robots.txt,在文件中,声明该网站不想被spider访问或指定搜索引擎只包

robots文件如何写比较好?写robots文件时需要注意事项

robots文件如何写比较好?写robots文件时需要注意事项

一、什么是robots.txt文件?

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息.当spider访问一个网站时,它将首先检查网站的根域下是否有一个叫做robots的网站.txt的纯文本文件.您可以在您的网站上创建纯文本文件robots.txt,在文件中,声明该网站不想被spider访问或指定搜索引擎只包含特定部分.该文件是robotss.txt文件.

二、robots.txt文件放置位置:

robots.txt文件应放置在网站根目录下.例如:

当Spoder访问一个网站(如httppp)://www.chendian.com/)时间.首先检查网站根目录中是否存在httpp://www.chendian.com/robots.txt文件,如果spoder在目录下找到文件,它将根据文件的内容确定哪些文件不被捕获,从而确定其访问权限的范围.

三、robots.txt的作用:

1、引导搜索引擎蜘蛛抓取指定栏目或内容;

2、网站修改或URL重写优化时,屏蔽对搜索引擎不友好的链接;

3、屏蔽死链接,404错误页面;

4、屏蔽无内容、无价值的页面;

5、屏蔽重复页面,如评论页面、搜索结果页面;

6、屏蔽任何不想被收录的页面;

7、引导蜘蛛抓取网站地图;

四、robots.Txt基本语法:

1、User-agent:定义搜索引擎.正常情况下,网站内部有:User-agent:*,这里*的意思是所有,表示所有搜索引擎的定义.例如,我想定义百度,那么User就是User-agent:Baiduspider;定义google,User-agent:Googlebot.

2、Disallow:禁止爬行.例如,我想禁止爬我的admin文件夹,那就是Disallow:/admin/.禁止爬取admin文件夹下的login.html,Disallow:/admin/login.html.

3、Allow:允许.我们都知道,在默认情况下,是允许的.那么,为什么要允许这种语法呢?例如,我想禁止admin文件夹下的所有文件,除了.html网页,怎么写?我们知道Disallow可以一一禁止,但是太费时间和精力了.这时,使用Allow解决了复杂的问题,并写道:

Allow:/admin/.html$

Disallow:/admin/

4、$:结束符.例:例:Disallow:.php$这句话的意思是屏蔽所有的东西.无论前面有多长的URL,如abc//aa/bb//index.php也被屏蔽了.

robots文件如何写比较好

5、*:通配符号0或多个任意字符.例:Disallow:*?*这意味着屏蔽所有带“?”的文件,以及所有的动态URL.

五、robots.txt文件写法例说明:

所有搜索引擎,如谷歌/百度,都禁止访问整个网站

User-agent:*

Disallow:/

允许所有搜索引擎spider访问整个网站(Disallow:Allow可以使用:/替代)

User-agent:*

Disallow:

禁止Baiduspider访问您的网站,Gogle等搜索引擎不阻止Baiduspider访问您的网站,

User-agent:Baiduspider

Disallow:/

只允许Googlespider:Googlebot访问您的网站,禁止百度等搜索引擎

robots文件如何写比较好

User-agent:Googlebot

Disallow:

User-agent:*

Disallow:/

禁止搜索引擎蜘蛛spider访问指定目录

(spider不访问这些目录.每个目录应单独声明,不能合在一起)

User-agent:*

Disallow:/cgi-bin/

Disallow:/admin/

Disallow:/~jjjj/

搜索引擎spider不允许访问指定目录,但允许访问指定目录的子目录

User-agent:*

Allow:/admin/far

Disallow:/admin/

使用通配符星号“*”设置禁止访问的url

(禁止所有搜索引擎抓取//cgi-bin/目录下的一切都是“.html网页格式(包括子目录)

User-agent:*

Disallow:/cgi-bin/*.html

使用美元符号“$”设置禁止访问某一后缀的文件

(只允许访问”.html网页文件的格式.)

User-agent:*

Allow:.html$

Disallow:/

防止google、百度等所有搜索引擎访问网站都有动态网站页面

User-agent:*

Disallow:/*?*

阻止Goglespided:Googlebot访问网站上某种格式的图片

(禁止访问.jpg格式的图片)

User-agent:Googlebot

Disallow:.jpg$

只允许Googlespider:Goglebot抓取网页.gif格式图片

(Googlebot只能捕捉Gif格式的图片和网页,禁止其他格式的图片;未设置其他搜索引擎)

User-agent:Googlebot

Allow:.gif$

Disallow:.jpg$

只禁止Googlespider:谷Goglebot抓取.jpg格式图片

(不禁止其他搜索引擎和其他格式图片)

User-agent:Googlebot

Disallow:.jpg$

声明网站地图sitemapp

这告诉搜索引擎你的sitemap在哪里,比如:

Sitemap:http://www.AAAA.com/sitemap.xml

六、蜘蛛长什么样:

国内搜索引擎蜘蛛:

百度蜘蛛:baiduspider

搜狗蜘蛛:sogouspider

有道蜘蛛:YodaoBot和OutfoxBot

搜搜蜘蛛:Sosospider

国外搜索引擎蜘蛛:

谷ogle蜘蛛:googlebot

yahoo蜘蛛:Yahoo!Slurp

alexa蜘蛛:ia_archiver

bing蜘蛛(MSN):msnbot

robots.txt编写的细节:

1.插入反斜杠

还是Disallow:/a/b.以html为例,在编写句子时,如果忘记添加反斜杠,则对所有内容开放,这与编写句子的想法相反,因为反斜杠的意义是根目录.

2.空间的出现

很容易理解空间的出现,因为搜索引擎不识别这个特殊符号的出现,它的加入只会使句子失去应有的效果.

以上就是关于"robots文件如何写比较好?写robots文件时需要注意事项"的相关内容,希望对您有所帮助,更多SEO优化教程,敬请关注沉淀SEO.

【robots文件如何写比较好?写robots文件时需要注意事项】文章内容来源:https://www.chendianseo.com/news/164.html
版权声明

本站资讯除标注“原创”外的信息均来自互联网以及网友投稿,版权归属于原始作者,如果有侵犯到您的权益,请联系我们提供您的版权证明和身份证明,我们将在第一时间删除相关侵权信息,谢谢.联系地址:977916607@qq.com