友情提示:如果本网页打开太慢或显示不完整,请尝试鼠标右键“刷新”本网页!阅读过程发现任何错误请告诉我们,谢谢!! 报告错误
八万小说网 返回本书目录 我的书架 我的书签 TXT全本下载 进入书吧 加入书签

搜索引擎优化魔法书-第14部分

按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!




的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索 

关键词的相关度高低,依次排列。  

    搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站 

点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容以及这些内容本身之 

间的关联程度以及一个站点在整个网络上的关联程度来确定的。  

    使用超链分析技术,除要分析索引网页本身的文字,还要分析索引所有指向该网页的链 

接的 URL、AnchorText,甚至链接周围的文字。所以,有时候,即使某个网页 A  中并没有 

某个词,比如“软件”,但如果有别的网页B 用链接“软件”指向这个网页A,那么用户搜 

索“软件”时也能找到网页A 。而且,如果有越多网页(C、D、E、F……)用名为“软件” 

的链接指向这个网页 A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那 

么网页A 在用户搜索“超链分析”时也会被认为相关度越高,排序也会越靠前。  



二、工作步骤  



1、从互联网上抓取网页  



    专门用于检索信息的Robot 程序像蜘蛛一样在网络间爬来爬去,利用能够从互联网上自 

动收集网页的 Spider 系统程序, 自动访问互联网,并沿着任何网页中的所有 URL  爬到其 

它网页,重复这过程,并把爬过的所有网页收集回来。随着互联网的迅速发展,检索所有新 

出现的网页变得越来越困难。因此,在Wan…derer 基础上,一些编程者将传统的 Spider 程序 

工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个 

网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。   



2、建立索引数据库  



    由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在 

URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页 

的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字 

中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。   



                                                                      第48 页 


… Page 57…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



3、索引数据库中搜索排序  



    当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所 

有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关 

度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页 

面内容摘要等内容组织起来返回给用户。  



三、搜索效果  



    搜索引擎 Spider 一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、 

几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反 

映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的 

变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。   

    互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排 

序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数 

据量达到几千 G 甚至几万G。但即使最大的搜索引擎建立超过20 亿网页的索引数据库,也 

占不到互联网上普通网页的30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。 

人们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有 

更大量的网页,是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的。   

    使用超链分析的搜索引擎未能收录的网页有:Spider 未能正确处理的网页性质及文件类 

型(如Flash、script、JS,某些动态网页及Frame、数据库);没有主动登录搜索引擎而且没 

有指向链接的孤岛网页;Spider 访问时因为某些原因正好是死链接的网页;被认为是劣质网 

页而不抓;因为色情、反动、spam  等问题而不抓的非法网页;需要输入用户名、密码方可 

打开的网页;网站用robots 协议拒绝搜索引擎抓取的网页;搜索引擎还未来得及抓取的新网 

页;go…pher、newsgroups、Telnet、np、wais 等非http 信息的网页。  

    任何地址中带“?”和“&”号(及其他类似符号)的网页都会被“蜘蛛”程序挡在门外。 

这些网页通常由 CGL、PHP、ASP  等程序产生,技术上较先进,但不适合搜索引擎的“蜘 

蛛”程序。虽然目前有的大型搜索引擎(如 Google)已具备检索动态网页的能力,但相当 

一部分引擎还是不支持它的。而且即使是能够索引动态网页的 Google,也在多个场合中明 

确表示不保证检索全部的动态网页。  



四、超链分析技术的应用   



    超链分析技术已为世界各大搜索引擎普遍采用,在我国使用该项技术的搜索引擎有:  

    百度(baidu )搜索引擎使用了高性能的“网络蜘蛛”程序自动在互联网 

中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的 

互联网信息。百度在中文互联网拥有天然优势,支持搜索 1。3 亿个中文网页,是现在最大的 

中文搜索引擎。并且,百度每天都在增加几十万新网页,对重要中文网页实现每天更新。百 

度除了用超链分析排名外还开展竞价排名。具有网页快照,相关搜索、中文人名识别、简繁 

体中文自动转换、网页预览等功能,还可以进行专业的MP3 搜索、Flash 搜索、新闻搜索、 

图片搜索、信息快递搜索。百度总裁李彦宏就是超链分析专利的唯一持有人。   

    引入人工智能的慧聪(huicong )行业搜索引擎对于商务人士而言尤为有 

用。如果在Google 上输入“化工”,搜索出相关网页有 138 万个,里面包罗万象,有用的、 



                                                                       第49 页 


… Page 58…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



无用的混杂在一起,如果用户想找的网站正好排名在上千、上万个以后,无疑面对的是一个 

茫茫网海,找到这个信息十分困难。而在慧聪行业搜索引擎,弹出的首先是一个分类页面, 

列有有机化工、石油化工、精细化工、印刷化工等43 个行业分类的条目,虽然只有 1 万多 

条查询结果,针对性却非常强,用户可以快速找到自己需要的信息,网站与有效用户的见面 

机会大大增强。模拟人类智慧,更好地使用技术来完成更具智慧的搜索,必然是下一代搜索 

引攀技术的发展趋势。  



五、存在的缺陷  



    用户在搜索关于某些内容的有效信息时,最大的特点是各异性。利用超链分析技术,用 

户将接受一种根据某种标准进行网页排名的信息服务,从而演变成为各网站想尽办法追求网 

页排名的商业活动。   

    海量的网页被收集回来,用姓名、电话、单位名称或网名都可以搜索到许多含有此关键 

词的信息,这些信息有不少侵权、侵犯隐私、泄露机密的信息,尤其是大量论坛的贴子被收 

录,不少贴子言论含有攻击的成分。所以如何及时处理掉这些链接又是搜索引擎急需解决的 

问题。  



                           第三节 中文分词  



一、什么是中文分词?   



    英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的 

字连起来才能描述一个意思。例如,英文句子“I am a student。”,用中文则为:“我是一个 

学生”。计算机可以很简单通过空格知道 student 是一个单词,但是不能很容易明白“学”、 

 “生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词, 

有些人也称为切词。我是一个学生,分词的结果是:“我”“是”“一个”“学生”。  



二、中文分词的意义和作用   



    要想说清楚中文分词的意义和作用,就要提到智能计算技术。智能计算技术涉及的学科 

包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单 

的说,智能计算就是让机器“能看会想,能听会讲”。要想实现这样的一个目标,首先就要 

让机器理解人类的语言,只有机器理解了人类的语言文字,才使得人与机器的交流成为可能。 

再反观我们人类的语言中,“词是最小的能够独立活动的有意义的语言成分”,所以对于中文 

来讲,将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那样过 

渡到短语划分、概念抽取以及主题分析,以至自然语言理解,最终达到智能计算的最高境界, 

实现人类的梦想。   

    从现阶段的实际情况来看,英文已经跨越了分词这一步,也就是说在词的利用上已经先 

一步,并且已经展现了良好的应用前景,无论是信息检索还是主题分析的研究都要强于中文, 

究其根本原因就是中文要通过分词这道难关,只有攻破了这道难关,我们才有希望赶上并超 

过英文在信息领域的发展,所以中文分词对我们来说意义重大,可以说直接影响到使用中文 

的每一个人的方方面面。  



                                                                       第 50 页 


… Page 59…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



    中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结 

果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把 

最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对 

搜索结果的相关度排序。在现有三个中文搜索引擎上做测试,测试方法是直接在 Google 

 (google )、百度(baidu )、中搜(zhongsou ) 

上以“和服”为关键词进行搜索:  

      

      



        在 Google 上输入“和服”搜索所有中文简体网页,总共结果 507,000 条,前 

    20 条结果中有 14 条与和服一点关系都没有。在第一页就有以下错误:  

        “通信信息报:瑞星以技术和服务开拓网络安全市场”  

        “使用纯 HTML 的通用数据管理和服务… 开发者… ZDNet 。。。”  

        “陈慧琳《心口不一》化妆和服装自己包办”  

        “::外交部:中国境外领事保护和服务指南(2003 年版) 。。。”  

        “产品和服务”  

        等等。第一页只有三篇是真正在讲“和服”的结果。  



          



        在百度上输入“和服”搜索网页,总共结果为 287,000 条,前20 条结果中有 

    6 条与和服一点关系都没有。在第一页有以下错误:  

        “福建省晋江市恒和服装有限公司系独资企业”  

        “关于商品和服务实行明码标价的规定”  

         “青岛东和服装设备”  



          



        在中搜上输入“和服”搜索网页,总共结果为 26,917 条,前 20 条结果都是 

    与和服相关的网页。  



  

    这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。Google                           的中文分词技 

术采用的是美国Basis Technology  (basistech )公司提供的中文分词技术,百 

度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(hylanda) 

提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大 

的关系。  



三、中文分词技术  



    中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白 

哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。  

    现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基 

于统计的分词方法。  



1、基于字符串匹配的分词方法  



    这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大 

的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。 



                                                                       第 51 页 


… Page 60…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优 

先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程 

相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词 

方法如下:  



     正向最大匹配法(由左到右的方向);  

     逆向最大匹配法(由右到左的方向);  

     最少切分(使每一句中切出的词数最小)。  



    还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法 

结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很 

少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结 

果表明,单纯使用正向最大匹配的错误率为 1/169,单纯使用逆向最大匹配的错误率为 

1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作 

为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。  

    一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切 

分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进行机械 

分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类 

信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极 

大地提高切分的准确率。  

    对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做 

详细论述。  



2、基于理解的分词方法  



    这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就 

是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包 

括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统 

可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的 

理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂 

性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处 

在试验阶段。  



3、基于统计的分词方法  



    从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多, 

就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。 

可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字 

的互现信息,计算
返回目录 上一页 下一页 回到顶部 4 4
未阅读完?加入书签已便下次继续阅读!
温馨提示: 温看小说的同时发表评论,说出自己的看法和其它小伙伴们分享也不错哦!发表书评还可以获得积分和经验奖励,认真写原创书评 被采纳为精评可以获得大量金币、积分和经验奖励哦!