致新手:先了解搜索引擎知识 再做SEO

大标 2022年9月16日07:08:51网络推广评论0阅读模式

搜索引擎的工作过程非常复杂,简单来说,搜索引擎的运行过程大致可以分为三个阶段。 爬行和抓取 搜索引擎蜘蛛通过跟踪链接访问页面,获取页面的HTML代码并将其存储在数据库中。 预处理 :搜索和获胜:对捕获的页面数据文本进行文本提取、中文分词、索引和其他处理,以供排名程序使用。 排名 :用户输入关键字后,排名调用索引数据库数据,计算相关性,然后生成特定格式的搜索结果页面。

爬行和抓取

爬行和爬行是搜索引擎工作的第一步,完成数据收集任务。

蜘蛛

搜索引擎用来抓取和访问页面的程序称为蜘蛛,也称为机器人。

蜘蛛代理名称:

百度蜘蛛:百度蜘蛛+(+http://www.baidu.com/search/spider.htm ) ·

雅虎中国蜘蛛:Mozilla/5.0(兼容;雅虎中国;http://misc.yahoo.com.cn/help.html ) ·

中文雅虎蜘蛛:Mozilla/5.0(兼容;雅虎Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp )

谷歌蜘蛛:Mozilla/5.0(兼容;谷歌机器人/2.1+http://www.google.com/bot.html ) ·

微软必应蜘蛛:MSNBot/1.1(+http://search.msn.com/msnbot.htm )·

搜狗蜘蛛:搜狗+网络+机器人+(+http://www.sogou.com/docs/help/webmasters.htm#07 ) ·

sosospider:SoSospide+(+http://help.soso.com/webspider.htm ) ·

有道蜘蛛:Mozilla/5.0(兼容;yodaobot/1.0;http://www.yodao.com/help/webmaster/spider/ ; )

跟踪链接

为了在网络上抓取尽可能多的页面,搜索引擎蜘蛛会跟踪页面上的链接,并从一个页面爬到下一个页面,就像蜘蛛在蜘蛛网上爬行一样。这是名称搜索引擎蜘蛛的起源。最简单的爬行和遍历策略分为两种类型:深度优先和广度优先。

深度优先搜索

深度优先搜索是在搜索树的每一层始终只扩展一个子节点,持续前进到深度,直到无法进一步前进(到达叶节点或受深度限制),然后从当前节点返回到前一节点,并继续向另一方向前进。该方法的搜索树是从树的根逐渐形成的。

深度优先搜索也称为垂直搜索。由于具有解决方案的问题树可能包含无限分支,如果深度优先搜索错误地进入无限分支(即,深度是无限的),则不可能找到目标节点。因此,深度优先搜索策略是不完整的。此外,通过应用该策略获得的解不一定是最佳解(最短路径)。

广度优先搜索

在深度优先搜索算法中,首先扩展深度较大的节点。如果将算法更改为根据搜索中节点的级别进行搜索,则当不搜索该层的节点时,无法处理较低层的节点,即先扩展深度较小的节点,也就是先扩展首先生成的节点。这种搜索算法称为广度优先搜索。

在深度优先搜索算法中,首先扩展深度较大的节点。如果将算法更改为根据搜索中节点的级别进行搜索,则当不搜索该层的节点时,无法处理较低层的节点,即先扩展深度较小的节点,也就是先扩展首先生成的节点。这种搜索算法称为广度优先搜索。

吸引蜘蛛

哪些页面被认为是重要的?有几个影响因素:

·网站和页面权重。具有高质量和旧资格的网站被认为具有高权重,并且在此类网站上爬行的页面深度将相对较高,因此将包括更多的内部页面。

·页面更新程度。每次蜘蛛爬行时,它都会存储页面数据。如果第二次爬网发现页面与第一次完全相同,这意味着该页面尚未更新,因此蜘蛛没有必要经常抓取。如果页面内容频繁更新,蜘蛛会更频繁地访问该页面,页面上的新链接自然会被蜘蛛更快地跟踪并抓取新页面。

·导入链接。无论是外部链接还是内部链接

检测和删除复制的内容通常是在下面描述的预处理过程中完成的,但现在蜘蛛在爬行和抓取文件时也会在一定程度上检测复制的内容。当在权重较低的网站上遇到大量转载或剽窃内容时,他们很可能不会继续爬行。这也是为什么一些网站管理员在日志文件中发现了蜘蛛,但页面从未真正包含在内的原因。

预处理

在一些SEO材料中,“预处理"也被称为“索引",因为索引是预处理的最重要步骤。

搜索引擎蜘蛛捕获的原始页面不能直接用于查询排名处理。搜索引擎数据库中的页面数超过万亿。用户输入搜索词后,他们依靠排名程序实时分析这么多页面的相关性。计算量太大,无法在一两秒钟内返回排名结果。因此,必须对捕获的页面进行预处理,以准备最终的查询排名。

与爬行和爬行一样,预处理也提前在后台完成,用户在搜索时无法感受到这个过程。

1.提取文本

今天的搜索引擎仍然基于文本内容 。 蜘蛛抓取的页面中的HTML代码,除了用户可以在浏览器上看到的可见文本外,还包含大量HTML格式标签、JavaScript程序和其他无法用于排名的内容。搜索引擎预处理中要做的第一件事是从HTML文件中删除标记和程序,并提取可用于排名处理的网页文本内容。

今天是愚人节

删除HTML代码后,用于排名的剩余文本仅为以下行:

今天是愚人节

除了可见文本,搜索引擎还将提取一些包含文本信息的特殊代码,如元标记中的文本、图像替换文本、flash文件替换文本、链接锚文本等。

2.中文分词

分词是中文搜索引擎的一个独特步骤。搜索引擎基于单词存储和处理页面和用户搜索。英语和其他语言中的单词用空格分隔。搜索引擎索引程序可以直接将句子划分为词集。汉语单词之间没有分隔符,句子中的所有单词都连接在一起。搜索引擎必须首先区分哪些词构成一个词,哪些词本身就是一个词。例如,“减肥方法"将分为“减肥"和“方法"。

汉语分词方法基本上有两种,一种是基于词典匹配的,另一种是统计的。

基于词典匹配的方法意味着将要分析的汉字段与预构建词典中的条目进行匹配,并且在要分析的汉语字符串中扫描的词典中的现有条目成功匹配,或者切掉一个单词。

根据扫描方向,基于字典的匹配方法可分为正向匹配和反向匹配。根据匹配长度的优先级,可分为最大匹配和最小匹配。通过首先混合扫描方向和长度,可以生成不同的方法,如正向最大匹配和反向最大匹配。

字典匹配方法计算简单,其准确性在很大程度上取决于字典的完整性和更新。

基于统计的分词方法是指分析大量文本样本,并计算单词相邻出现的统计概率。相邻的几个词出现得越多,形成一个词的可能性就越大。基于统计的方法的优点是,它可以更快地响应新单词,也有利于消除歧义。

基于词典匹配和统计的分词方法各有优缺点。在实际使用中,分词系统是这两种方法的混合,它快速高效,可以识别新词和新词并消除歧义。

中文分词的准确性往往影响搜索引擎排名的相关性。例如,在百度搜索“搜索引擎优化"时,我们可以从快照中看到,百度将“搜索引擎最优化"这六个词视为一个词。

在谷歌搜索同一个词时,快照显示谷歌将其分为两个词:“搜索引擎"和“优化"

重复数据消除的基本方法是计算页面特征关键字的指纹,即从页面的主要内容中选择最具代表性的部分关键字(通常是频率最高的部分),然后计算这些关键字的数字指纹。这里的关键字选择是在分词、停止词移除和噪声消除之后。实验表明,一般选择10个特征关键词可以获得相对较高的计算精度,而选择更多的词对去重精度的提高贡献不大。

典型的指纹计算方法是MD5算法(信息摘要算法的第五版)。这种指纹算法的特点是,输入(特征关键字)的任何微小变化都将导致计算指纹之间的较大差距。

在了解搜索引擎的重复数据消除算法后,搜索引擎优化人员应该知道,简单地添加“de"、“Di"、“de"并改变段落顺序,即所谓的伪原创性,无法逃脱搜索引擎的消除重复算法,因为这样的操作无法改变文章的特征关键字。此外,搜索引擎的重新计算方法可能不仅在页面级别,而且在段落级别。混合不同的文章和改变段落顺序不能使转载和抄袭原文。

6.远期指数

前向索引也可以简称为索引。

经过文本提取、分词、噪声消除和重复消除后,搜索引擎获得了能够反映页面主要内容的独特内容,并基于单词。接下来,搜索引擎索引程序可以提取关键字,根据分词程序划分单词,将页面转换为一组关键字,并记录页面上每个关键字的频率、频率、格式(如出现在标题标签、粗体、H标签、锚文本等)和位置(如页面的第一段)。这样,每个页面都可以被记录为关键字集的字符串,并且还记录每个关键字的词频、格式和位置等权重信息。

搜索引擎索引程序将由页面和关键字形成的词汇结构存储到索引库中。简化索引词汇表如表2-1所示。

每个文件对应一个文件ID,文件的内容表示为一组关键字。事实上,在搜索引擎索引数据库中,关键字也被转换为关键字ID。这种数据结构称为前向索引。

7.反向索引

正向索引不能直接用于排名。假设用户搜索关键字2,如果只有正索引,排名程序需要扫描索引库中的所有文件,找出包含关键字2的文件,然后计算相关性。这种计算量不能满足实时返回排名结果的要求。

因此,搜索引擎将前向索引数据库重建为反向索引,并将文件到关键字的映射转换为关键字到文件,如表2-2所示。

在反向索引中,关键字是主键,每个关键字对应于一系列文件,该关键字出现在这些文件中。这样,当用户搜索关键字时,排序程序在反向索引中定位该关键字,并可以立即找到包含该关键字的所有文件。

8.链接关系计算

链接关系计算也是预处理的重要部分。现在主流搜索引擎的所有排名因素都包括页面之间的链接流信息。在捕获页面内容后,搜索引擎必须提前计算:页面上的哪些链接指向其他页面,哪些页面导入了链接,以及链接使用了哪些锚文本。这些复杂的链接指向关系形成了网站和页面的链接权重。

谷歌公关价值是这种链接关系的主要表现之一。其他搜索引擎也进行类似的计算,尽管它们不被称为pr

由于页面和链接数量巨大,互联网上的链接关系不断更新,计算链接关系和PR需要很长时间。后面有关于PR和链接分析的专门章节。

9.特殊文件的处理

除了HTML文件,搜索引擎通常可以捕获和索引各种基于文本的文件类型,如PDF、word、WPS、xls、PPT、txt文件等

weinxin
我的微信
微信扫一扫
大标
  • 本文由 发表于 2022年9月16日07:08:51
  • 转载请务必保留本文链接:https://www.tanhuibiao.com/3627.html
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: