SEO之搜索引擎的工作原理(二)

这篇具有很好参考价值的文章主要介绍了SEO之搜索引擎的工作原理(二)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

初创企业需要建站的朋友看这篇文章,谢谢支持:我给不会敲代码又想搭建网站的人建议

(接上一篇。。。。。)

预处理


在一些SEO材料中,“预处理”也被简称为“索引”,因为索引是预处理最主要的步骤。
搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别以上,用户输入搜索词后,靠排名程序实时对这么多页面分析相关性,计算量太大,不可能在一两秒内返回排名结果。因此抓取来的页面必须经过预处理,为最后的查询排名做好准备。
和爬行抓取一样,预处理也是在后台提前完成的,用户搜索时感觉不到这个过程。

1、提取文字
现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到的页面中的HTML 代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、JavaScript 程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,
提取出可以用于排名处理的网页面文字内容。
比如下面这段HTML 代码:

<div id="post-1100" class="post-1100 post hentry category-seo">
<div class="posttitle">
<h2><a
href="http://www.chinamyhosting.com/seoblog/2010/04/01/fools-day/"
rel="bookmark" title="Permanent Link to今天愚人节哈">今天愚人节哈</a></h2>

除去HTML 代码后,剩下的用于排名的文字只是这一行:

今天愚人节哈`

除了可见文字,搜索引擎也会提取出一些特殊的包含文字信息的代码,如 Meta标签中的文字、图片替代文字、Flash 文件的替代文字、链接锚文字等。


2、中文分词
分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。比如“减肥方法”将被分词为“减肥”和“方法”两个词。
中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计,基于词典匹配的方法是指,将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。
按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法,
词典匹配方法计算简单,其准确度在很大程度上取决于词典的完整性和更新情况。
基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。
基于词典匹配和基于统计的分词方法各有优劣,实际使用中的分词系统都是混合使用两种方法的,快速高效,又能识别生词、新词,消除歧义。
中文分词的准确性往往影响搜索引擎排名的相关性。比如在百度搜索“搜索引擎优化”,百度把“搜索引擎优化”这六个字当成一个词。
而在Google 搜索同样的词,Google 将其分切为“搜索"、“引擎”和“优化”三个词。显然百度切分得更为合理,搜索引擎优化是一个完整的概念。Google分词时倾向于更为细碎。

再举一个更明显的例子。在Google搜索“点石互动”四个字,Google 将其切分为“点”,“石”及“互动”三个词。“点石互动”这个中文SEO领域
最知名的品牌,显然并没有进入Google 的词典中。

在百度搜索“点石互动”时会发现,百度将“点石互动”当做一个词。甚至在百度搜索“点石大会报名”,可以发现百度把“点石大会”都当成一个词。
这种分调上的不同很可能是一些关键词排名在不同搜索引擎有不同表现的原因之一。
比如百度更喜欢将搜索词完整匹配地出现在页面上,也就是说搜索“点石互动”时,这四个字连续完整出现更容易在百度获得好的排名。Google就与此不同,不太要求完整匹配。
一些页面出现“点石”和“互动”两个词,但不必完整匹配地出现,“点石”出现在前面,“互动”出现在页面的其他地方,这样的页面在Google搜索“点石互动”时,也可以获得不错的排名。
搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面本身如何,所以SEO人员对分词所能做的很少。唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当做一个调处理,尤其是可能产生歧义的时候,比如在页面标题、h1标签及黑体中出现关键词。如果页面是关于“和服”的内容,那么可以把“和服”这两个字特意标为黑体。如果页面是关于“化妆和服装”,可以把“服装”两个字标为黑体。这样,搜索引擎对页面进行分析时就知道标为黑体的应该是一个词。


3、去停止词
无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这些词被称为停止调,因为它们对页面的主要意思没什
么影响。英文中的常见停止词有the, a, an, to, of 等。
搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。


4、消除噪声
绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字、导航条、广告等。以常见的博客导航为例,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,但是这些页面本身与“分类”、“历史”这些词都没有任何关系。用户搜索“历史”、“分类”这些关键词时仅仅因为页面上有这些闻出现而返回博客帖子是毫无意义的,完全不相关。所以这些区块都属于噪声,对页面主题只能起到分散作用。
搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消噪的基本方法是根据HTML.标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。


5、去重
搜索引擎还需要对页面进行去重处理,同一篇文章经常会重复出现在不同网站及同一个网站的不同网址上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了,虽然都是内容相关的。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就称为“去重”。

去重的基本方法是对页面特征关键词计算指纹,也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。这里的关键词选取是在分词、去停止词、消噪之后。实验表明,通常选取10个特征关键词就可以达到比较高的计算准确性,再选取更多词对去重准确性提高的贡献也就不大了。

典型的指纹计算方法如MDS 算法(信息摘要算法第五版)。这类指纹算法的特点是,输入(特征关键词)有任何微小的变化,都会导致计算出的指纹有很大差距。了解了搜索引擎的去重算法,SEO人员就应该知道简单地增加“的”、“地”“得”调换段落顺序这种所谓伪原创,并不能逃过搜索引擎的去重算法,因为这样的操作无法改变文章的特征关键词。而且搜索引擎的去重算法很可能不止于页面级别,而是进行到段落
级别,混合不同文章、交叉调换段落顺序也不能使转载和抄袭变成原创。


6、正向索引
正向索引也可以简称为索引。
经过文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H标签、锚文字等)、位置(如页面第一段文字等)。这样,每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。
搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。简化的索引词表形式如下图
SEO之搜索引擎的工作原理(二),搜索引擎,经验分享

每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中,关键词也已经转换为关键词ID。这样的数据结构就称为正向索引。


7、倒排索引
正向索引还不能直接用于排名。假设用户搜索关键词2,如果只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含关键词2的文件,再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求,所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,如下表
SEO之搜索引擎的工作原理(二),搜索引擎,经验分享

在倒排索引中关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了这个关键词。这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件。


8、链接关系计算
链接关系计算也是预处理中很重要的一部分。现在所有的主流搜索引擎排名因素中都包含网页之间的链接流动信息。搜索引擎在抓取页面内容后,必须事前计算出:页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。
Google PR值就是这种链接关系的最主要体现之一。其他搜索引擎也都进行类似计算,虽然它们并不称为PR,由于页面和链接數量巨大,网上的链接关系又时时处在更新中,因此链接关系及PR的计算要耗费很长时间。


9、特殊文件处理
除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序。
虽然搜索引擎在识别图片及从Flash 中提取文字内容方面有些进步,不过距离直接靠读取图片、视频、Flash内容返回结果的目标还很远。对图片、视频内容的排名还往往是依据与之相关的文字内容,详细情况可以参考后面的整合搜索部分。

(未完待续。。。。。)
SEO之搜索引擎的工作原理(二),搜索引擎,经验分享文章来源地址https://www.toymoban.com/news/detail-854682.html

到了这里,关于SEO之搜索引擎的工作原理(二)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【经验分享】在百度搜索引擎中的结果中,过滤指定的网站

    系统版本:Windows 10 描述:在搜索引擎中想在结果中过滤一些指定网站,快速找到有价值的内容。 视频教程: 文字教程: 1.进入百度搜索引擎,bing搜索引擎貌似不可以。 www.baidu.com 2.搜索内容如:锐捷无线AC基础命令 -csdn,“-”这个符号是减号,0旁边那个,或者小键盘的减

    2024年02月03日
    浏览(61)
  • 探秘Nutch:揭秘开源搜索引擎的工作原理与无限应用可能(三)

    本系列文章简介:         本系列文章将带领大家深入探索 Nutch 的世界,从其 基本概念和架构开始 ,逐步深入到 爬虫、索引和查询 等关键环节。通过了解Nutch的 工作原理 ,大家将能够更好地理解搜索引擎背后的原理,并有能力利用Nutch构建自己的搜索引擎。 欢迎大家

    2024年03月13日
    浏览(82)
  • SEO搜索引擎

    利用搜索引擎的规则提高网站在有关搜索引擎内的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应 黑帽SEO 通过欺骗技术和滥用搜索算法来推销毫不相关、主要以商业为着眼的网页,导致用户搜索到不满意

    2024年02月07日
    浏览(55)
  • SEO(搜索引擎优化)

    什么是SEO?         SEO是 搜索引擎优化 ,意指在了解搜索引擎自然排名机制的基础上,对网站进行内部及外部的调整优化,改进网站在搜索引擎中的自然排名,获得更多的流量,从而达成网站销售以及品牌建设的预期目标. 搜索引擎工作原理         第一步:爬行,搜

    2023年04月22日
    浏览(94)
  • SEO搜索引擎优化

    SEO代表搜索引擎优化(Search Engine Optimization),是一种通过对网站进行优化来提高其在搜索引擎结果页面(SERP)中排名的过程和实践。通过使用SEO技术,网站所有者可以使其网站在搜索引擎中获得更高的可见性,从而增加流量和潜在客户。 搜索引擎优化的目标是理解好搜索引

    2024年02月12日
    浏览(124)
  • SEO搜索引擎优化方式

    SEO搜索引擎优化方式 利用搜索引擎的规则提高网站在有关搜索引擎内的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应。 今天给大家介绍两种搜索引擎优化的技术手段。 通过欺骗技术和滥⽤搜索算法来推

    2024年02月11日
    浏览(103)
  • 前端之SEO搜索引擎优化

    SEO(search engine optimization)搜索引擎优化 SEO是端开发人员在网站设计和开发过程中,通过优化HTML、CSS、JavaScript等前端代码,以及网站结构、页面布局、内容结构、URL等方面,来提高网站在搜索引擎中的排名和可见性。 通过优化网站结构,可以提高网站的可用性和导航性,从

    2024年02月15日
    浏览(98)
  • 搜索引擎SEO赚钱的具体方法!

    SEO是指对网站进行优化,进步网站在搜索引擎上的排名,然后吸引更多的流量。SEO学好后,能够经过以下方法挣钱:  1.添加网站流量,进步广告收入 经过SEO优化,网站的访问量会大大添加,然后进步广告收入。有些网站经过在网站上放置Google AdSense广告来取得收益,每点击

    2024年02月16日
    浏览(64)
  • 如何处理前端SEO(搜索引擎优化)?

    聚沙成塔·每天进步一点点 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发者,这里都将为你提供一个系统而

    2024年02月08日
    浏览(94)
  • WordPress博客系统搜索引擎优化seo全攻略

    1.空间的选择 wordpress要求 php+mysql的支持,rewrite功能,比如apache的mod-rewrite或iis rewrite。 空间的速度,Google已经明确把空间的速度列入网站排名要素之一,所以选择一个快速稳定的空间是seo的基础。 并且快速稳定的空间对 用户体验也很好. 2.WordPress 主题的选择 选择一个优秀的

    2023年04月23日
    浏览(76)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包