SEO技术基础_搜索引擎优化原理

释放双眼,带上耳机,听听看~!

SEO技术 SEO基础 搜索引擎优化原理

SEO技术基础,SEO是一种低成本或零成本的营销方式,但有别于其他营销方式,要做好SEO,需要了解和熟悉其技术知识。本章从搜索引擎原理、站内优化、站外优化和防止作弊4个维度,介绍SEO技术的基础知识。
掌握基础知识,对SEO思维的深度理解及SEO的实践会有很大帮助。

1.搜索引擎原理:
搜索引擎作为互联网的基础应用,在掌握SEO这[门技术前,要先了解搜索引擎的原理。
搜索引擎的工作过程基本上可分成3个阶段。首先进行爬行抓取,然后进行数据预处理,包括提取文字、中文分词等,最后给予排名输出。

2.爬行抓取:
爬行抓取是搜索引擎工作最重要的一步,指将所有需要抓取的内容抓取回来,因此如果在抓取这步出错了,后面就完全瘫痪了。
当使用搜索引擎进行搜索时,会立刻出现数以万计的网页信息,这个过程是以秒来计算时间的。如果搜索引擎在1秒内,将所查询的关键词从数以万亿的互联网信息中心中逐一抓取一遍,是无法实现的。即使效率再高的服务器,也难以支撑这样的信息输入/输出逻辑。

3.信息收集:
平时上网的时候,打开一个网页的时间是1秒内,这仅是打开一个网页的时间,搜索引擎在以秒计算时间的情况下,不可能将互联网上的信息都抓取一遍,这不仅耗时,费用也高。因此,搜索引擎较好的方法是提前处理所抓取的网页,从根本上解决这个问题。
信息搜集工作是要按照一定规律来进行的,有如下两个特征。
●批量收集:对互联网上只要存在链接的网页都收集-遍,耗时需要几个星期。缺点是增加了额外的带宽消耗,时效性也不高。
●增量收集:批量收集的一个技术升级,完美地弥补了批量收集的缺点。在原有的基础上搜集新增加的网页,变更上次收集之后有改变的页面,删除收集重复和不存在的网页。
还有一种比较简单的方法可以使搜索引擎爬行,即网站主动向搜索引擎提交网站,到一定的时间会自动进行爬取。现在网站主动提交后搜索引擎再来爬行的速度越来越慢了,最理想的办法是顺着自然链接收集,所以网站结构简单清晰是非常重要的。

4.蜘蛛的特点:
搜索引擎用来爬行网站的程序称为”蜘蛛” ,每个搜索引擎的蜘蛛都有一些差异化的特点, 具体如下。
(1) 百度蜘蛛
百度蜘蛛根据服务器的负载能力调节访问密度,大大降低服务器的服务压力。
(2)谷歌蜘蛛
谷歌蜘蛛属于比较活跃的网站扫描工具,其间隔28天左右就派出”蜘蛛”搜索有更新或有修改的网页。与百度蜘蛛最大的不同是,谷歌蜘蛛的爬取深度要比百度蜘蛛深得多。
(3)搜狗蜘蛛
搜狗蜘蛛的爬取速度比较快,但抓取的数量较少。对于其他搜索引|擎的蜘蛛,本书不再赘述。蜘蛛主要通过爬取页面上的链接来发现新的页面,以此类推,不停地十字交叉爬行便形成一张蜘蛛网。

5.爬行的策略:
爬行主要按两种策略执行:一是深度优先爬行,二是广度优先爬行。
(1)深度优先爬行
如下图所示:

爬虫爬行顺序

网络爬虫爬行顺序

蜘蛛从A页面顺序爬行到A1、A2、 A3、 A4页面,爬行到A4页面后发现没有页面了,于是返回A页面,以此类推,再爬行到B1、B2、 B3、 B4页面。 深度优先爬行的主要特点是蜘蛛会沿着一条线直抓取下去, 直到最后,然后返回,再开始另一条线。
(2)广度优先爬行
广度优先爬行是指蜘蛛在一个页面上发现多个链接时,首先将所有第一层的链接抓取-遍,然后沿着第二层链接向第三层链接爬行,
如图下所示:

爬虫的广度爬行顺序

爬虫的广度爬行顺序

归根到底,只要给蜘蛛足够的时间,无论广度优先爬行,还是深度优先爬行,都能爬完整个网站。SEO的一个基本原则是要给蜘蛛节省宽带和资源,毕竟蜘蛛的资源不是无限的,也有满负载的时候。
SEO人员要做的工作之一就是为蜘蛛指明一 条正确的路径, 尽量减少蜘蛛的工作强度。

另外,还需注意尽量避免蜘蛛重复爬行数据,造成重复收集的原因是蜘蛛并没有记录访问过的页面URL,或者一个页面有多个URL指向它。
针对这个情况,搜索引擎增加了一个额外的技术,分别定义两个不同类型的表,即已访问表和未访问表,依靠此技术就可以简单地解决重复收集的难题。在蜘蛛抓取到一个链接后,从这两个表中可以判断此链接是否已经被访问过,如果没有被访问过,抓取回来就添加到未访问表中。

如下图所示:

爬虫的URL指向

爬虫的URL指向

蜘蛛从开始爬行到网页D、网页C或网页F,顺着链接爬行到网页G和网页A,蜘蛛都会调用两表中的数据,以此来判断爬取网页的重复度。

6.网页信息的重要性:
由于互联网的信息实在太多太杂,随着时间的积累不可能将所有的信息都收集起来,所以要尽可能地让蜘蛛收集重要的网页。网页信息的重要性是根据信息价值本身来决定的,因此收集的方式也可以采用不同的策略。
对网页重要程度的判断也有一些方法可循。对于整个网站页面的质量权重度而言,并非网站首页权重越高越好,需要结合全局分配权重。

可从以下3点判断一个网页的重要程度。
●高质量相关链接导入。从外部导入与自身相关度大的链接,可以增加网页权重。
●信息的新鲜度。一个高质量的网站每天都会更新,用户天天浏览,蜘蛛也会天天来光顾。
●网页内容的原创性。原创内容越多的网页,重要性越高,原创内容意味着信息的稀缺性,稀缺性对搜索引擎来说,意味着有较大价值。

7.数据预处理:
通过前面的爬行抓取流程,已经把想要的网页全都抓取回来了,下面需要对信息进行分析索引,其中包括了多个处理流程。与爬行抓取一样,数据预处理也是在后台系统中提前完成的。
(1)关键词提取
搜索引擎完全能识别的依旧是以文字内容为主的信息。蜘蛛在爬行一个页面时,先将HTML网页抓取下来,删除对排名没有意义的标签和代码,如JavaScript、 CSS、div标签等,只保留文本信息。
(2)删除停用词
同一个词可能在-个网页中出现多次,如“得””的”“地”“啊””阿””呀”“却””再””从而”之类的无用词,反复出现没有价值,这类词称为停用词,也需要删除。
(3)分词技术
分词是中文搜索引擎特有的技术。中文信息和英文信息的差别在于:英文单词与单词之间使用空格分隔,但这对中文行不通。搜索引擎必须将整个中文句子切割成多个小单元词,如”SEO是网络营销必备的流量增长策略”拆分出来的形态是“SEO” ”是”“网络””营销”“必备””的”“流量””增长”“策略”。分词技术的效率直接影响整个系统的效率。分词的方法有两种:基于字符串匹配的分词方法和基于统计的分词方法。
(4)基于字符串匹配的分词方法
按匹配方向的不同,可分为正向匹配、逆向匹配和最少切词。这三种方法可以混合使用,即正向最大匹配、逆向最大匹配、正向最小匹配和逆向最小匹配。

①正向最大匹配
假设字典中最长的词语字数为m,先根据标点符号及特征词将句子切分为短语,取短语的前m个字,在字典中查找是否存在这个词,如果存在,就输出这个词,并以短语中删除这个词:如果不存在,就删除这m个字的最后一个字。然后检查剩下的是否为单字,若是则输出此字并将此字从短语中删除,若否则继续判断字典中是否存在这个词,如此反复循环,直到输出一个词,此后继续取剩余短语的前m个字反复循环。这样就可以将一个短语分 成词语的组合了。

小例子:
“我是一个美人”
以“我是一个美人”为例,假设字典中最长词语字数为3,正向最大匹配顺序如下:
●取出短语“我是一”,检查“我是一-”是否在字典中存在或为一个单字,处理方法是删除最后面的“一”字;
●检查短语“我是”是否在字典中存在或为一个单字,处理方法是删除”是”字;
●检查“我”字是否在字典中存在或为一个单字,“我”是一个单字,将“我”字输出;
●继续取出短语”是一 个”,检查”是一 个”是否在字典中存在或为一个单字,处理方法是删除最后面的“个”字;
●检查短语”是一”是否在字典中存在或为-个单字,处理方法是删除“一”字;
●检查”是”字是否在字典中存在或为一个单字,“是”是一个单字,将“是”字输出;
●取出短语“一 个美”,检查“一个美”是否在字典中存在或为一个单字,处理方法是删除最后面的“美”字;
●检查短语“一 个”,发现是字典中的一个词,直接输出;
●检查短语”美人” ,发现是字典中的一个词,直接输出;
●最后输出结果为:我/是一个美人。

②逆向最大匹配
逆向最大匹配是从句子结尾处进行分词的方法。逆向最大匹配技术最大的一个作用是消歧。例如,“吕令建周末去了汤河口镇钓鱼”,按照正向最大匹配结果为:吕冷建去了汤河口镇钓鱼,显然产生了歧义,汤河口镇是一个地名,没有被正确地切分。采用逆向最大匹配的技术可以修正这个错误。

③正向最小匹配逆向最小匹配
这两种方式一般很少使用,但在实际使用中逆向匹配的精准度要
高于正向匹配。

8.基于统计的分词方法:
基于统计的分词方法直接调用分词字典中的若干词进行匹配,同时使用统计技术识别新的词语,将所有的统计结果匹配起来发挥切词的最高效率。
分词字典基本上收录了汉语字典当中所有的词语,是搜索引擎判断词语的依据。
例如,在搜索引擎中输入“我要减肥了”,“减肥”两字就会被判定为一个词语。
现在网络上经常会出现一些新造的网络流行词语,如“神马” “犀利哥”等,这样的词都会慢慢地被收录。
分词字典只有不断更新,才能满足日常搜索判断的需求。

9.消除噪声:
网页上有形形色色的广告文字、广告图像、登录框、版权等信息,为了某些目的不得不放上去,这些对搜索引|擎来说是无用的信息,可以直接删除,对搜索引擎而言属于噪声元素。

10.分析网页建立倒排文件:
(1)正向索引
经过前面几个步骤后,就可以开始提取关键词了,将页面转换为一个关键词组合,同时记录每个关键词在页面上的出现频率、格式和位置,这样每个页面都可以记录为一串关键词组合,其中每个关键词的出现频率、格式和位置等权重信息也都记录在案,简化的索引词表结构,如下图所示:

简单索引词表

简单索引词表

(2)倒排索引正向索引不能直接用于排名。
例如,用户搜索关键词3,如果只正向索引,排名程序需要扫描所有索引中的文件,找出包含关键词3的文件,再进行相关计算。这样做计算无法实时返回排名结果。因此,搜索引擎会将正向索引|数据库重新构造为倒排索引,倒排索引以关键词为索引,词表结构如下图所示:

倒序索引

倒序索引

10.链接关系计算:
链接关系计算是数据预处理中重要的一步。主流的搜索引擎排名:因素包含网页之间的链接流信息。事先必须计算页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,使用了如锚文本等何种链接方式,谷歌PR是这种链接关系计算的重要代表之一。

11.特殊文件处理:
搜索引擎可以抓取和索引以文字为基础的多种文件类型。而特殊文件包括动画、视频、PPT、 表格、图像等非文字内容。
搜索引擎不能执行脚本和抓取程序,因为搜索引擎目前还无法获取特殊文件中的文字信息。对图像来说,一般推荐使用alt标签向搜索引擎传达图像信息。

12.给予排名:
经过前面的爬行抓取和数据预处理后,搜索引擎已经存储了较为丰富的数据,而且已经记录了重要关键词的集合,即正向索引和倒排索引中的关键词集合,为每个关键词赋予特殊的编码形成了一个倒排文件。输入一个关键词可以马上从相关文档编号中找到所需的信息。
用户输入某个关键词,如“减肥”,查找的出发点还是比较模糊的,究竟是寻找减肥方法还是减肥教练,这些信息并不明确,但这是大部分用户的一个习惯。搜索引擎的处理方法是尽量将出现“减肥”二字的词都调用出来,可能多达几百页。排名靠前的网页,用户点击越多。

搜索引擎为了提升用户体验,其结果的展示形式不断演变,从以前单一的列表式,演变出图文式、全站链接式、卡片式及知识图谱式等。SEO的工作内容除了创造具有吸引力的标题,还需要提供精美的图像,为多样的展示形式提供条件。下图所示为不同样式的效果。

以上是SEO技术基础的三分之一内容,下期接着介绍。

SEOSEO优化

搜索引擎与SEO的关系_搜索引擎优化

2021-1-13 15:17:56

SEOSEO优化

网站站内SEO优化_需要改善的地方有哪些

2021-1-18 18:06:21

⚠️
本平台上的部份文章来源于互联网,仅供网友学习交流,未经本平台作者许可或上传书面授权,请勿作他用。
若您的权利被侵害,请联系客服 QQ: 2425546468 或 点击右侧 私信:客服编辑 反馈,我们将尽快处理。
搜索
error: Content is protected !!