网站SEO诊断之URL规范化设置及常见问题

能金SEO 网站优化 2020-05-01 2468 0

　　URL 规范化（url normalization）其实就是一个标准化 URL 的过程，URL 规范化用于搜索引擎可以减少对页面的重复索引，同时也可以减少爬虫的重复抓取。浏览器端识别用户是否访问过一个 URL 也需要使用 URL 规范化。

网站SEO诊断之URL规范化设置及常见问题目录规范化搜索引擎我们在做好第1张

　　一个网站的 URL 在搜索引擎的搜索结果中，是能够展示出来的，我们在做网站之前，最好要提前将目录的文件名做好规划。以便我们在做 SEO 的同时做好用户体验。所选择的 URL 最好能做到清晰、方便记忆的的效果，然后可以考虑其中的排名。下面子凡就从三个大方面开始探讨咯！

　　一、URL 规范化注意事项

D-202030：D-202030
添加微信好友, 获取相关信息
复制D-202030

　　1.网站的 URL 越短越好，URL 的长度不超过 1000 个字节就可以被搜索引擎收录，但是这几百个字母需要用户记住的话也是很难的，因此我们选择的 URL 越短越好，最好方便用户去记住这个 URL。

　　2.URL 中避免出现太多参数，在一些开源的程序中，会出现很多种参数，一旦参数越多，会影响引擎蜘蛛的识别，很容易使网站进入蜘蛛陷阱。为了避免这种情况，建议大家尽量使用静态的 URL 或者伪静态的 URL。

　　3.目录层级越少越好，减少网站的深层次目录，有助于网页的收录。如果是门户网站或者大型的网站，如果目录太深的话，可以选择使用 2 级域名来代替很深层级的目录。

　　4.具有很强的描述性，每一文件和目录具有描述性。

　　5.URL 中包含关键词，在一个 URL 中包含关键词可以提高页面相关性，比如目录可以用拼音或者英文来命名，搜索引擎会识别目录的英文含义。

　　6.字母全部小写，网站里面的字母尽量要使用小写字母。

　　7.连接符的使用，文字、链接符之间的链接一般要使用连接符或者横线。

　　二、不规范的 URL（示例）

　　1 URL 中多余的字符

　　1.1 子域名的 URL 中包含"www": "http://www.blog.leiue.com/"

　　1.2 含有默认端口： "http://www.leiue.com:80/tech/"

　　1.3 松散的 URL: "http://www.leiue.com/tech/amazon-sucks-donkey-balls/9780470170779-item.html"

　　1.4 多余默认文件名 index.html,default.php 等："http://www.leiue.com/tech/index.html"

　　1.5 文件路径中

　　（1）多余的"/":"http://www.leiue.com/tech//"

　　（2）多余的点修饰串："http://www.leiue.com/a/b//page.html"

　　1.6 查询串中多余的

　　（1） ? （空查询串）：http://www.leiue.com/tech?

　　（2） &

　　（3）无用的查询变量：http://www.leiue.com/display?id=123&fake=fake

　　2 URL 缺少字符串

　　2.1 缺少"/":"http://www.leiue.com/tech"

　　2.2 查询串缺少名称或者值："http://www.leiue.com/display?id=" 或者 "http://www.leiue.com/display?=123"

　　3 其他不规范的 URL

　　3.1 "http://tech.leiue.com/" 与 "http://www.leiue.com/tech/"其实是相同的内容

　　3.2 使用 IP 代替域名

　　3.3 含有扩充字符（extended characters），大小写敏感（"http://www.google.cn/Intl/zh-CN/about.html" 和"http://www.google.cn/intl/zh-CN/about.html"）

　　3.4 "+"和"%20"混用

　　3.5 查询变量顺序混乱："http://www.leiue.com/test.php?bar=1&a=test"

　　3.6 含临时的状态变量：http://www.leiue.com/test?back=/go.php

　　三、URL 规范化设置

　　URL 组成：

　　protocol :// hostname[:port] / path / [;parameters][?query]#fragment

　　协议：//主机名[:端口]/ 路径/[:参数] [?查询]#fragment

　　URL 规范化过程：

　　1.URL 协议名和主机名小写化

　　HTTP://WWW.EXAMPLE.com/test -> http://www.example.com/test

　　2.escape 序列转化为大写，因为 escape 序列大小敏感%3a ->%3A

　　3.删除 Fragment（#）

　　http://www.example.com/test/index.html#seo -> http://www.example.com/test/index.html

　　4.删除空查询串的'?'

　　http://www.example.com/test? -> http://www.example.com/test

　　5.删除默认后缀

　　http://www.example.com/test/index.html -> http://www.example.com/test/

　　6.删除多余的点修复符

　　http://www.example.com//a/b//c/./d.html -> http://www.example.com/a/c/d.html

　　7.删除多余的"www"

　　http://www.test.example.com/ -> http://test.example.com/

　　8.对查询变量排序

　　http://www.example.com/test?id=123&fakefoo=fakebar → http://www.example.com/test?id=123 \

　　9.删除取默认值的变量

　　http://www.example.com/test?id=&sort=ascending → http://www.example.com/test

　　10.删除多余的查询串，如？，&

　　http://www.example.com/test? → http://www.example.com/test

　　11.Dust 规则

　　http://www.example.com/test?id=123 -> http://www.example.com/test_123

　　四、URL 防止重复设置技巧

　　举个常见的来例子来说，下面这几个 URL 一般来说指的是同一个文件或网页：

　　http://www.domain.com

　　http://domain.com

　　http://www.domain.com/index.html

　　http://domain.com/index.html

　　从技术上分析这是四个不同的地址，而在实际的使用过程中，被大多数人当作是一个地址使用着，所以在这个时候我们就需要做好设置，否则网站将会出现大量的重复。

　　相信这个对于很多人来说并不陌生，因为这些常常被一些人忽略，或者是有些人自作聪明，为了让搜索引擎更多的抓取网站页面，甚至有的站长还把几个域名解析到同一个主机，总觉这样可以提升收录，其实不然，搜索引擎又不傻，重复的多了，就是被索引，也没有什么排名，反而徒劳无功。

　　所以遇见这样的问题我们就需要确定网站的一个主域名，而像泪雪博客的就是使用的没有 www 的域名，所以就算你输入 www 访问也会自动跳转到没有 www 的域名上面，而像之前泪雪博客还使用过一个二级域名，现在依然是做了301 跳转的，从而确定网站主域名，确保网站内容 URL 的唯一性。

　　写在最后：不规范的 URL 会造成网站很多重复的 URL，导致爬虫重复抓取同一内容，影响网站有效的内容被抓取，同时也就影响索引。多个不规范 URL 造成页面权重稀疏，本来流向同一页面的权重，结果造成了流向多个不规范的 URL。还有一个用户体验问题，复杂或者不规范的 URL 容易使用户对网站造成不良印象。

　　除非注明，否则均为泪雪博客原创文章，禁止任何形式转载

　　本文链接：https://zhangzifan.com/url-normalization.html