Google SEO排名丨基于算法的排名系统:爬取、建立索引、排名

了解如何爬取、建立索弓以及排名的效用机制对搜索引擎优化实操人员来说很有帮助,它能够帮助他们确定采取哪些行动来实现他们的目标。这篇文章主要描述谷歌和Bing的运作方式,对在其他国家流行的搜索引擎未必适用,例如Yandex (俄国)、百度(中国)、Seznam(捷克共和国)以及Naver(韩国) 。

搜索引|擎必须完美实施很多任务,从而提供相关的搜索结果。

简单来说,你可以把它认为是:

1.爬取并且为网络上几十亿文档(页面和文档)建立索引(注意它们忽略了那些认为“不重要”的页面,也许因为这些页面无法增加新的价值或者在网络上都没有推荐)。

2.通过提供相关页面的列表回复用户的查询。

在这篇文章,我们会从一个非技术的角度来谈论这些功能的基本原理,会从讨论搜索引 |擎如何查找内容开始讲起。

一、爬取和建立索引丨Google SEO排名

为了提供最好的搜索结果,搜索引擎需要在网络中搜寻所有的公共页面,然后呈现给搜索用户与他们搜索条目最相关的页面。这个步骤的第一步是爬取网络。搜索引擎从一组高质量的种子网站开始,然后访问这些网站每个页面中的链接从而发现其他的网页。

网络的链接结构是通过其他页面的链接将所有的公开网页都串联在一起的。通过链接,搜索引擎的自动机器人,称为网络爬虫或者网络蜘蛛,可以访问几十亿互相链接的文档。

在图2-10中,你可以看到USA.gov的主页。美国政府的官网。页面上的链接都用红色标注了。爬取这个页面是从加载页面开始的,分析页面内容,然后看USA.gov其他的页面链接到了哪里。

基于算法的排名系统:爬取、建立索引、Google SEO排名

图2-10爬取美国政府网页

然后搜索引擎会加载其他页面并且分析内容。这个过程不断地重复直到爬取过程结束为止。这个过程非常的复杂,因为网络本身非常庞大、非常复杂。

注意搜索引擎并不是每天都试图爬取整个网络的。事实上,它们可能会意识到不应该爬取某些网页,因为这些网页可能并不重要,不能作为搜索结果呈现给用户。我们会在下节”检索和排名”部分讨论重要性的作用。这个步骤的第一步是建立术语的索引。这是一个巨大的数据库,它为搜索引擎爬取的每-个页面的重要术语都做了分类。

这个步骤的第一步是建 立术语的索引。这是一个巨大的数据库,它为搜索引擎爬取的每-一个页面的重要术语都做了分类。

很多其他的数据也被记载了下来,例如一个每个页面都链接到的地图,这些链接中可点击的文本(也就是锚文本), 无论这些链接是广告还是其他的内容。

为了在毫秒中完成存储成千上万亿页面的数据这个巨大的任务,搜索引擎创建了大量的数据中心来处理所有的这些数据。

创建搜索引擎的一一个关键概念是确定从网页的哪里开始爬取。尽管理论上你可以从网络上很多地方开始,但你最好还是从一组值得信赖的网站开始。

从有名气的、值得信赖的一组网站开始,能够使搜索引擎衡量在爬行过程中遇到的其他网站它们应该给予的信任程度。我们将会在搜索算法中更加详细地讨论信任的作用,详见7.1节“在历史上链接如何影响搜索引|擎排名”。

二、检索和排名丨Google SEO排名

对大多数搜索用户来说,搜索某个答案要从图2-11显示的过程开始。

基于算法的排名系统:爬取、建立索引、Google SEO排名

图2-11某个用户开始搜索

当搜索引擎按照相关程度的大小返回了一系列相关的网页时,查询的下一步就开始了。这个过程需要搜索引|擎浏览几千亿的文档并完成两件事情:首先,仅仅返还与搜索用户查询词相关的条目;其次根据重要性对搜索结果进行排序(要考虑网站的可信度和权威程度)。在这个环节中,搜索引擎优化要试图影响的是相关性和重要性。

相关性指的是搜索提供的文档内容与用户查询的意图和术语的匹配程度。如果页面包含用户查询词相关的术语,文档的相关性就会增加,或者使用相关的锚文本

你可以把相关性看作“在这场比赛中”的第一步。如果你和某个查询条目不相关,搜索弓|擎就不会将你考虑在搜索答案的范围内。我们会在2.3节“确定搜索用户意图并传达相关、新鲜内容”部分更详细地讨论相关性。

重要性指的是相关程度的重要性,通过衡量匹配用户查询词的文档引用情况(某个作品借鉴另一个作品的行为,经常出现在学术和业务文档中)来确定。

某个给定文档的重要性随着其他文档借鉴的次数增加,其重要性也同比增加。在如今的网络环境中,引用可能是通过链接到文档的形式或者是在社交媒体网站.上的借鉴来实现的。确定如何为这些信号划分权重被称为引证分析。

你可以把重要性看作确定在一组同样 相关的页面中哪个页面应该出现在搜索结果的第一位,哪个搜索结果出现在第二位,依此类推。网站的相关权威度,以及搜索弓|擎对它的信任度,在这一确定环节起到关键的作用。当然,方程式要比这个复杂一些,并不是所有的页面都具有同样相关度。最终,相关性和重要性相结合才能最终确定排名顺序。

因此,当你看到如图2-12所示的搜索结果页面时,对于查询词”marvel superherostamps”(漫 威超级英雄邮票),你可以猜测搜索引擎(在这个例子中指的是Bing)认为eBay的超级英雄邮票页面拥有相关性和重要性的最高综合得分。

基于算法的排名系统:爬取、建立索引、Google SEO排名

图2-12“ marvel superhero stamps”搜索结果案例

重要性和相关性并非是通过人为决定其重要性的(几万亿的人工时间会需要整个地球的全部人口作为劳动力)。取而代之的是搜索引|擎制作了数学公式-算法-用来将有用信息从海量信息中提取出来并且根据有用信息的价值来进行排名。这些算法一般包含几百种组成元素。在搜索营销领域,一般称它们为排名因素或者算法排名标准。

我们会在2.5节”分析排名因素”部分更加详细地讨论排名因素或者信号(信号是谷歌偏好使用的术语)。

三、评估网页内容丨Google SEO排名

搜索引擎将很大的权重放在每个网页的内容上。毕竟,只有内容才能确定网页的信息,并

且搜索引擎对在爬取中遇到的每个网页都会进行详细的分析才做出最终决定。

你可以将其看作搜索引擎对网页中出现的所有的文字和词语进行详细的分析,然后创建数据

图,这样在用户输入相关的搜索查询词时,就能借鉴这个图来确定页面在搜索结果中的位

置。这个图一般被称为语义图,用来确定这些概念之间的关系从而搜索引|擎可以更好地理解

如何正确地匹配网页和用户的搜索查询词。

如果对某个查询词,网页没有相应的内容语义匹配,这个网页出现在搜索结果中的可能性就会很小。因此,你放在网页中的词语,以及网页的”主体”,在排名中的作用很关键。

图2-13显示了一个搜索引擎在浏览-一个网页时如何将一个网页分解,这里使用了福布斯网站的一个页面。

基于算法的排名系统:爬取、建立索引、Google SEO排名

图2-13分解网页

一个网站内的各个页面的导航元素可能很相似。这些导航元素没法忽略,它们扮演了很重要的角色,但是它们不能帮助搜索弓|擎确定网页中有什么独特的内容。为了实现这一点,搜索引擎突出了图2-13中的部分,标记为“独特的网页内容”。

确定某个网页的独特内容是搜索引|擎的重要工作之一。搜索引擎通过它对独特内容的理解程度来确定可能和页面相关的不同类型的搜索查询词。因为网站导航对于某个网页来说并不独特,不能帮助搜索引擎来完成这个任务。

这并不代表导航链接不重要一它们很重要;但是,当搜索弓|擎在确定网页的独特内容时它们并不重要,因为很多网页都有导航链接。

搜索引擎需要完成的一一个任务是确定内容的价值。尽管通过链接可分析某条内容的价值,但是搜索引擎还可以基于它们在网页中获取的信息来生成一些结论。

例如,其他网站是否会出现这个页面中的内容?搜索引擎可以看到的特殊内容是两个句长还是500字长?内容是不是不断地重复相同的关键词?在确定某条内容的价值时,搜索弓|擎是通过若千个因素来衡量的。

四、了解搜索引擎在网页上可以”看到”哪些内容丨Google SEO排名

搜索引|擎爬虫以及检索程序基本上都是软件程序。这些程序非常有用。它们爬取几百万亿的网页、分析所有页面的内容,然后分析各个网页之间互相链接的方式。再然后它们将其整合到一系列的数据库中,可以在用户输入搜索查询词后的几毫秒内获取高度相关的搜索答案。

源代码

这是一一个了不起的成就,但是也有其局限性。软件非常机械化,并且它仅仅能理解大多数网页的某些部分。这个搜索引擎爬虫分析某个网页的源HTML格式。如果你想了解是什么样子,可以通过使用你的浏览器浏览源代码来实现。

图2-14显示的是在Chrome浏览器中如何实现,图2-15显示的是在Firefox浏览器中如何实现。一般来说,你可以在某个网页中通过右击鼠标来访问隐藏的菜单。

基于算法的排名系统:爬取、建立索引、Google SEO排名

图2-14在Chrome中访问网页源代码:在网页右击鼠标访问菜单

基于算法的排名系统:爬取、建立索引、Google SEO排名

图2-15在Firefox中访问网页源代码

同样有很多浏览器开发工具(附件和扩展工具)能够帮助你在浏览器中访问源代码,用来发现网页应用以及JavaScript库。一个最为广泛使用的代码分析工具是WebDeveloper,由ChrisPederick研发,用于Chrome、Firefox以及Opera。

一旦你浏览了网页源代码,你就看到了网络服务器传送给你的浏览器相同的代码。这就是大多数搜索引擎爬虫看到的内容(搜索引起那个同样可以看到页面的HTTP头部设置,这是网络服务器传送给它的位置状态码)。在某些情况下谷歌会在页面上运行JavaScript。要了解它们的操作过程,请参照第6章的内容。在试图分析某个网页对用户可见的内容时,搜索引擎会在很大程度上忽略导航的代码以及排列代码,如图2-16所示,因为它和网页的内容没有联系。

基于算法的排名系统:爬取、建立索引、Google SEO排名

图2-16网页源代码案例

HTML文本

搜索引擎爬虫对网页的HTML文本最感兴趣。

图2-17显示的是Moz主页的HTML文本的案例。

基于算法的排名系统:爬取、建立索引、Google SEO排名

图2-17源代码中HTML文本显示真实的内容案例

HTML元标签

尽管图2-17仍然显示了一些HTML编码,但你可以看到“常规”文本在编码中的显示。这是爬虫要寻找的独特的内容。此外,搜索弓|擎也读取一-些其他的元素。其中的一个部分就是网页标题。网页标题是某个页面排名中最重要的因素之一。 它是在浏览器标题栏中显示的文本(高于浏览器菜单以及地址栏)。

图2-18显示的是爬虫可以看到的代码,使用了Trip Advisor案例。

基于算法的排名系统:爬取、建立索引、Google SEO排名

图2-18 HTML元标签

<title>标签

图2-18中的第-个高亮区域是<title>标签。<title>标签同样也经常用在搜索结果列表显示的标题中(如图2- 19所示)。

基于算法的排名系统:爬取、建立索引、Google SEO排名

图2-19搜索结果显示标题标签

除了页面标题,搜索引擎之前使用元关键词标签。这是一串你想和页面相关联的关键词。几年前,垃圾邮件制作者(那些通过违反搜索引|擎规则试图控制搜索引擎结果的人)破坏了这个标签的SEO价值,因此它的价值现在可以忽略,因为搜索引|擎已经不再使用它。不推荐花费时间在元关键词中,因为它缺乏搜索引擎优化价值。

图2-18中第二高亮区域显示的是元关键词标签的一个案例。

同时,搜索引擎也读取元描述标签(在图2-18中的HTML源第三个高亮区域)。然而,一个元描述标签并不被搜索引擎直接用在它们的排名算法里。

元描述

然而,元描述标签的作用也很关键,搜索引擎经常将它作为搜索结果的描述部分。因此一个写得很好的元描述可以很大程度地影响你的网站获得的点击量,点击量又会影响你的排名。因此,花费时间在元描述上很有价值。

图2-20是对trip advisor进行的搜索,显示了元描述标签被用作搜索结果中的描述部分。

基于算法的排名系统:爬取、建立索引、Google SEO排名

图2-20在搜索结果中使用元描述

注意当用户的关键词出现在搜索结果中时一般都是用黑体显示的(有时候相近的同义词也是用黑体显示)。举个例子,在图2-20中,TripAdvisor在描述的开始部分 用黑体显示。这被称为上下文关键词(KWIC)。

图像的alt属性

搜索引擎读取的第四个元素是图像的alt属性。alt属性本来是用来呈现给那些无法查看图片的用户的信息:

1.有视觉障碍的用户无法浏览图片;

2.为了快速冲浪而把图片关闭的用户。这一般是没有宽带连接用户容易出现的问题。

对有视觉障碍的用户的支持仍然是使用alt属性的一个重要原因。你可以通过访问W3C网络可达性倡议页面来获取更多信息。

搜索引擎也会读取某个图像标签(<img>)的alt属性中含有的文本。一个图像标签就是用来告知网页展示某个图片的一个元素。

<noscript>标签

搜索引擎读取的另外一个元素是<noscript>标签。从历史观点上说,搜索引擎读取JavaScript语言的能力是有限的,但是随着时间的推移也发生了变化,谷歌表明如今它们使用了更多的JavaScript语言。然而,有一小部分用户在加载页面时不允许JavaScript运行(根据我们的观察大约占2%)。对这些用户

来说,只要网页上有JavaScript,就无法给用户呈现内容,除非这个页面包含了一个<noscript>标签。

这是个非常简单的JavaScript案例展示:

基于算法的排名系统:爬取、建立索引、Google SEO排名

<noscript>部分是” 你的浏览器不支持JavaScript!”。在这个例子中你可以选择使用<noscript>标签包含”这 个世界毕竟很小”。<noscript>标签应该仅仅在JavaScript替代内容时使用。

搜索引擎看不到什么

来浏览一下哪些类型的内容搜索引擎”看不到”(从人的意识上)也是值得的。

例如,尽管搜索引|擎能够分辨你展示的一-张图片,但它们除了你给它提供的alt属性信息,无法理解这个图片是什么,就像我们之前提到的一样。它们只能分辨图片中很基础的几种信息类型,例如出现一张脸,或者通过判断裸露程度来确定色情内容。搜索粥|擎不能轻易地分辨一个图片是一-张Bart Simpson的照片还是一艘船、一幢房子或者一场龙卷风。此外,搜索擎-般不会识别图片中呈现的任何文字。

事实上搜索引擎能够在一定程度上处理这些类型的任务。例如,你可以拍一张泰姬陵的照片然后把它拖入谷歌的图片搜索框中,搜索引擎就能加以辨别。然而,于要进行图片识别就必须具备处理能力,搜索引擎并不会试图识别在网络中遇到的任何图片。

搜索引擎同样也在试验使用光学字符识别技术(OCR)来从图片中提取文字,但是在搜索中的用处不大。实施光学字符识别技术和图片处理技术的主要问题是计算太大,在网络的任何部分都实施的可实践性不强。

此外,传统的SEO认知是搜索引擎不能读取Flash文档的,但是这种描述有点言过其实。近几年,搜索引擎已经能够从Flash中提取信息,就像谷歌在2008年作出的声明一样。然而,搜索引擎想要确定Flash中的内容并不容易。

即使搜索引擎在分析Flash时,它们仍然试图查找文档内容,但是Flash是- -个图片媒介并且设计师并没有在Flash中植入文本的动力(这不像搜索引擎)。所有出现在HTML文本中的语义线索(比如标题标签、黑体文本,等等)都没有,即使HTML和Flash-起使用时也是这样的。

搜索引|擎看不到的第三种内容类型是任何包含在Flash中的图片元素,因此,Flash在这方面的表现和图片一样。例如,当把文本转化为一个基于矢量的轮廓时(例如,图片化呈现)搜索引擎可以阅读的文档信息就丢失了。第6章会讨论优化Flash的方法。

音频和视频文档对搜索引擎来说也很难阅读。图片的数据很难解读。几个搜索引|擎可以提取到数据的特例,例如MP3文档中的ID3标签,或者标记有”播出注释”、 图片和章节笔记文本信息的AAC格式的优化播客内容。但是最终,搜索弓|擎仍然无法辨别一一个视频是- -场足球赛还是一场森林大火。

音频和视频文档对搜索引|擎来说也很难阅读。图片的数据很难解读。几个搜索引|擎可以提取到数据的特例,例如MP3文档中的ID3标签,或者标记有”播出注释”、图片和章节笔记文本信息的AAC格式的优化播客内容。但是最终,搜索弓|擎仍然无法辨别一一个视频是- -场足球赛还是一场森林大火。

搜索引擎也无法读取涵盖在程序中的内容。搜索引擎需要通过查看网页的源代码来查找人为可以读取的文本内容,就像之前描述的一样,如果浏览器在加载网页时你能看到,但并不能有所帮助一一它必须在源代码里 是可见的。

有一项技术可以提供具有人类可读性的内容但是搜索引擎无法读取,它叫作AJAX。AJAX基于JavaScript技术,不需要刷新整个页面,就能从数据库中获取数据然后在网页中某部分呈现动态的内容。这项技术一般用在工具里, 用户输入查询条目,AJAXI具可获取并呈现合适的内容。

由于仅仅在用户输入查询条目之后,内容才会被客户端(用户的电脑)上运行的脚本取回,因此容易出现问题。这会导致很多不同的输出结果。此外,直到查询提交,内容是不会显示在页面的HTML中的,因此搜索引|擎也没办法轻易地看到它。

相似的问题还有:其他格式的JavaScript同样不会在HTML中呈现内容,直到用户采取了行动为止。新格式的JavaScript,例如AngularJS使得搜索弓|擎更加难以确认信息。

对于HTML5,一个比较出名的结构是嵌入标签(<embed>),它用来将插件合并到HTML网页中。插件是指定位在用户电脑上的程序,不在你的网络服务器上。嵌入标签-般用于将电影和音频合并到网页中;它能告诉插件在哪里寻找可以使用的数据文档。通过插件涵盖的内容对搜索引|擎来说可能是隐形的、不可见的,也可能是可见的。

多窗口页面和内嵌框架是将其他网页内容合并到你的网页中的两种方法。内嵌框架比多窗口页面使用的频率更高。你通过类似的代码就能轻而易举地使用内嵌框架:

基于算法的排名系统:爬取、建立索引、Google SEO排名

多窗口页面一般用于细分出版商的网站内容,但是它也能用于带来和其他网站不一样的内容,如图2-21所示。

基于算法的排名系统:爬取、建立索引、Google SEO排名

图2-21框架页面呈现在浏览器中

图2-21是一个将其他网站的内容合并到你网站中的一个较好的例子( 假设在你的许可下)。然而,搜索引擎可以识别这是多窗口页面或者内嵌框架,但可能会忽略内容。也就是说,它不会把从其他网站上提取的内容认为是你的网页中的独特内容。


如果你对谷歌SEO相关内容还有更多的疑问,或者想要了解更多的相关知识和内容,这里为您整理了一份详细的谷歌SEO进阶指南,点击标题即可阅读。如果您有外贸独立站建站需求和谷歌SEO及谷歌SEM优化需求,也可以添加谷歌SEO优化师微信:g0365489 立马开始咨询合作

谷歌SEO教程:初学者完整进阶指南

了解seo的基本原理

学会研究关键词

学会内容创作优化

学会进行内部链接优化

研究外部链接建设

学会如何使用谷歌SEO工具


本站所有外贸独立站建站服务,免费做好最基础的网站优化,并提供基础的谷歌seo设置,目标做全网性价比最高的外贸独立站建站服务,扫描下方二维码即可联系我们!7X24小时为您提供服务     

天问网络-微信联系方式

Contents

最新文章

扫描二维码联系我们获取详细报价和案例

微信搜索:g0365489

天问网络-微信联系方式

马上联系我们

13526816415