邪能之槌号 达拉然:web搜索引擎优化
web搜索引擎优化技术
学习web搜索引擎机制,理解web设计方法,以改进页面在搜索结果中的排名
1.1 搜索引擎
随着网络技术的迅速发展,万维网成为巨量信息的载体,如何有效地检索和利用这些信息成为巨大挑战。在未知链接地址时,用户要在这种信息海洋里查找信息无异于大海捞针。
搜索引擎(Search Engine)技术应势而生,成功地解决了这一难题。搜索引擎为用户提供信息检索服务,作为辅助人们检索信息的工具,是在Web上发现信息的关键技术,是用户访问万维网的最佳入口。根据权威调查显示,搜索引擎的导航服务已成为非常重要的互联网服务,全球80%的网站,其访问量70%-90%都来自于搜索引擎,因此,让搜索引擎收录更多的网页,就是提高网站访问量的最有效办法。
搜索引擎借助于自动搜索网页的软件,在网络上通过各种链接获得大页面文档的信息,并按照一定算法与规则进行归类整理,形成文档索引数据库,以备用户查询。提供这种服务的网站便是“搜索引擎”。
搜索引擎收集因特网上数以十亿计的Web文档,并对其每术语即关键词进行索引,建立索引数据库,当用户查找某个关键词的时候,所有在包含该关键词的文档都将作为搜索结果罗列出来。这些结果将按照与搜索关键词的相关度高低,依次排列显示。
搜索引擎搜索和收集的Web文档类型有HTML、PDF、博客、FTP文件、图片、字处理文档(Word、PPT)、多媒体文件等。本文主要涉及页面或Web文档。
商业运作成功的著名搜索引擎有Google、Yahoo、MSN, Ask Jeeves和百度等。
1.1.1 搜索引擎的工作原理
搜索引擎有两个重要组成部分,即离线部分和在线部分。离线部分由搜索引擎定期执行,包括下载网站的页面集合,并经处理把这些页面转换成可搜索的索引。在线部分在用户查询时被执行,根据与用户需求的相关性,利用索引去选择候选文档并排序显示。
搜索引擎的原理基于三段式工作流程,即搜集,预处理,提供服务。它以一定的策略在互联网中发现和搜集信息,对信息进行处理和组织,以便为用户提供检索服务,从而起到信息导航的目的。因此,搜索引擎的工作原理包括搜索引擎收录页面、建立索引和向用户提供查询服务等。
1 网页搜集
搜索引擎使用软件按某种策略自动获取文档,软件名称不同,如Robot、Spider、crawler,Wanderer等。Robot直译为机器人,crawler直译为爬行器,spider直译为网络蜘蛛,Wanderer直译为漫游器,它们是搜索引擎用来抓取网页的工具或自动程序。
著名搜索引擎的探测器(Robot):谷歌的为googlebot,百度的为baiduspider,MSN的为MSNbot,Yahoo的为Slurp。
搜索引擎将检索首页,并根据其中的链接去搜索网站其它页面。搜索引擎从Web中抓取页面的过程如同蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl),被称为Web crawling或Spidering。
搜索引擎要从互联网上抓取网页,利用其Spider(蜘蛛)自动访问互联网,并沿着网页中的URL爬到其它网页。搜索引擎将Web看作是一个有向图:
搜集过程从初始网页的URL开始,找出其中所有URL并放入队列中;
根据搜索策略从队列中选择下一步要抓取的网页URL;
重复上述过程直到满足系统的停止条件。
网页抓取策略分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致蜘蛛的陷入(trapped)问题,目前常见的是广度优先和最佳优先方法。
Web有两个重要特征:信息海量和更新频率快,这使得Web crawling极其困难。
巨量信息意味着在给定时间蜘蛛只能下载部分Web页面,这需要蜘蛛有针对性地下载。快速的更新频率意味着蜘蛛在下载某个网站的最后一个页面时,说不定前面下载的页面已经被更新了。Crawling Web在某些程度上相似于在晴空万里的夜间观望天空,你所看到的只是群星在不同时刻状态的反映,因它们的距离不一。蜘蛛所获取的页面集合也非Web的快照,因这不代表任一时刻的Web。
如今,网络速度虽然有所提高,但仍然满足不了处理速度和存储容量的要求。因此,搜索引擎的Spider一般要定期重新访问所有网页,时间间隔因搜索引擎和目标网页而异,以便更新索引数据库,比较真实地反映出网页内容的更新情况,如增加新网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。从而使得网页的具体内容及其变化情况比较准确地体现在用户的查询结果中。
2 预处理
预处理旨在为收集到的Web文档建立逻辑视图。
在传统的信息检索中,文档逻辑视图是“bag of words”模型,即文档被视同为一些单词的无序集合。而在Web搜索引擎中,这种视图被逐步扩展了,如用词频、权重、Web文档的元信息、文档的权威性和使用情形等。
搜索引擎要处理蜘蛛所搜索到的信息,从中抽取出索引项,以便用户检索,索引项分为:
内容性索引项
元数据索引项,指文档的作名、URL、更新时间、编码、长度等
搜索引擎要给索引项赋于权值,以表示该索引项对文档的贡献程度,用于计算查询结果的相关性。
然后用索引项建立索引表。索引表一般使用某种形式的倒排表(Inversion List)。倒排表由两部分组成:词汇及其位置列表。词汇是所有关键词的排序列表,对于词汇中的每个关键词,其在文档集中的出现的“位置”列表。
3 查询服务
搜索引擎为用户提供查询界面,以便用户通过浏览器提交待查询的词语或短语。
当用户输入关键词后,搜索系统程序从索引数据库中找到符合该关键词的所有相关网页,并根据网页针对该关键词的相关性排序,相关性越高,排名越靠前。
然后很快返回与用户输入内容相关的信息列表,该列表中的每一条目代表一篇网页,至少有3个元素,即网页的标题、地址和摘要。
相关性(Relevance)体现着用户查询与查询结果文档的匹配程度。
1.1.2 信息检索技术
信息检索(Information Retrieval,IR) 指在一个集合中检索文本和搜索有用的文档,如在web上搜索文档。按查询有效地检索相关文档。用户在进行信息检索时,最关心如何在最短时间内找到所需要的信息,因此系统应判断哪些信息最符合用户的检索意图,并按级别排列出信息文档。
关键词的“匹配/位置/频次”的原则,即内容中的字词、词组或短语与用户输入的关键词越匹配,出现的次数越多。
信息检索过程始于用户输入一个查询字符串,该字符串是信息需求的形式化表示。在信息检索中,一个查询字符串可以识别出数据库中多个文档,这些文档的相关性可能不同。
基本的IR方法是出文档中的单词,并与查询中的单词比较
三种经典信息检索(IR)模型
布尔模型:文档被表示成关键词集合,查询被表示关键词的成布尔表达式(And, Or, Not),其输出是文档的相关与否,而没有匹配或排名。
统计模型:把文档表示成关键词集合(无序),被取样的单词相互独立,根据词频对文档进行排序。
矢量空间模型:每个文档被表示成高维空间中的一个矢量,查询也被表示成一个矢量,比较查询和文档集合,找出最接近的文档组。大多数查询系统计算数据库中文档匹配查询字符串的程度,并按排名依次显示。计算方法有统计法、信息论法和概率法等,这些方法大都基于矢量空间模型(vector space model)。矢量空间模型是把文档表示索引项矢量的代数模型,矢量的维数是词汇表中单词的数目。每个维对应于一个索引项。若索引项出现在一个文档中,其值(即权重值)为非零。
相关性基于文本和概念匹配,其中文本匹配主要关注:页面中的术语,关键区域中的术语如title标签、headlines等,链接中的术语。
Web搜索,应用IR到互联网中的HTML文档。
Web搜索与IR的区别是,必须通过crawling web 搜集文档资料,这些文档是不可控制的,可利用HTML (or XML)的结构性布局信息和元信息,能利用web 中的链接结构。
1.1.3 搜索引擎排名算法分类
在各种搜索引擎上进行同样搜索时会产生不同的结果。究其原因,首先,检索依赖于网络蜘蛛能找到的信息。其次,并非搜索引擎都使用相同的排名算法。搜索引擎用排名算法决定索引中的信息与用户所搜索的关键词的一致性。
搜索引擎在为文档排名时,除了考虑文档内容及其元信息外,还要考虑文档受用户欢迎的程度如外部链接和访问量等因素。
Web搜索排名算法变化趋势:
Yahoo!为代表的第一代文本搜索算法;雅虎的人工分类方式,网站目录搜索
第二代以PageRank和HITS为代表的基于链接分析的搜索算法;
第二代半基于网站的访问量。
第三代应该具有智能化、个性化和社区化等特征。
随着Web页面不断增加以及网络规模不断扩大,搜索引擎技术也在不断完善。搜索引擎在判断页面的相关性时,要考虑内容、元信息、名气、实际访问量等因素。
在为页面排名时,有两种算法:
查询无关的排名如PR,给索引库中的每个页面赋予固定的分数。
查询有关或主题敏感的排名如HITS,根据具体查询为每个页面赋予一个分数。
1.1.4 Google的几种排名算法
在最初的Google排名算法中:
首先,使用IR(Information Retrieve)算法找到所有与查询关键字相匹配的网页;
其次,根据页面因素(标题、关键字密度等)进行排名;
最后,通过PageRank得分调整排名结果。
Web上的链接结构是一种有价值的信息资源,若能利用好这种资源,可以极大地提高检索结果的质量。如今,Web链接被搜索引擎用作判定页面质量的关键技术之一。为了给用户提供更有价值的搜索服务,目前各引擎在原有相关性基础上,逐步在排名规则中引入了网页的链接流行度(Link Popularity),网页的链接在其他网页中出现的数量。
算法要分析的另外一个要素是页面与其它页面的的链接方式。通过分析页面如何相互链接,搜索引擎就能决定页面的主题(假如被链接页面的关键词相似于原页面的关键词)和页面是否被认为是重要的。
基于链接的分析主要基于如下基本假定:
共享链接的Web页面很有可能具有主题相似性
超文本链接包含了对目标网站的认可信息;
网站的外部链接越多,则排名越靠前。
并非所有链接都一样,来自于高质量网站的链接权重高。
以上假设在各种基于链接分析的算法中均以某种方式体现出来。
基于链接分析的算法,提供了一种衡量网页质量的方法:独立于语言、独立于内容。
1 PageRank算法
在基于链接分析的排序算法中,最为著名的就是PageRank。PageRank在Google中的应用获得了巨大的商业成功。
Google的创始人拉里•佩奇等于1998年在史丹福大学发明了PageRank算法。PageRank算法是与查询无关的、针对Web页面排序的、最早应用链接分析技术的搜索引擎算法。
把链接视同为选票,Google的PageRank算法假定链接能作为网站编辑对页面的质量和相关性的投票,即PageRank算法通过网络中链接关系确定页面的等级和相关性,其基本思想是试图为可以搜索的所有网页赋予量化值,其值由指向该网页的所有网页的值决定。Google为互联网中每个页面赋予的数值权重范围是0-10,以表明页面的重要性。Google根据投票来源(甚至来源的来源,即连结到A页面的页面)和投票目标的等级来决定新的等级。简单地讲,高等级页面可以提升其它低等级页面的等级。
PageRank依赖于Web特有的民主性,使用其巨大链接结构衡量页面价值。Google把从A页面到B页面的连结解释为A页面给B页面的投票。而且,Google 不仅仅依靠投票的数量即页面得到的链接数,它还有分析投票页面的质量,即来自重要页面的投票分量大。换而言之,页面PageRank源于其它Web页面对该页面的重要性的投票表决。
PageRank的原理类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。在互联网上,链接就相当于“引用”,在B网页中链接了A,相当于B在谈话时提到了A,如果在C、D、E、F中都链接了A,那么说明A网页是最重要的,A网页的PageRank值也就最高。
一个页面的PageRankge由递归定义,依赖于其外部链接的数目及其PageRank。被许多具有高PageRank的网页链接的页面也得到高排名。若页面没有外部链接,也就得不到支持。
页面的PageRank大致基于导入链接(inbound links)的数量和提供这种链接的网页的PageRank。其他因素如关键字在页面上的相关度、根据Google toolbar 计算的页面的访问量也影响着PageRank。为了防止人为操作、spoofing和Spamdexing,Google没有公开影响PageRank的其它因素。
然而,Google不仅仅依靠这种投票。最重要的事情是要在网站上发布一流文章,以便自然得到链接。根据Google内部人士透露,最好的链接是自愿给出的,别购买或交换链接,否则会弄巧反拙,欲速则不达。
PageRank算法是一种独立于用户查询的、离线的、被实践证明具有快速响应能力和很高成功率的算法,然而它仍存在着明显缺陷:
独立于用户查询,不能够应用于特定主题获取信息;
偏重旧网页,过分强调网页的外部链接而忽视专业站点;
链接权威性可以从任何页面到任何页面,而无论主题的相关性,从而使得那些从完全不相关链接的网站也在搜索结果中排名靠前;
在实践中,PageRank难以抵制人为的取巧操作。
Google TrustRank出现的背景。九十年代发明的PageRank确实是识别一流网站的好方法,它曾是Google算法的核心概念,对Google的成功功不可灭。但PageRank在计算网页排名时,对链接的依赖程度很大。较高的PageRank总会产生较好的排名,这能通过外部链接实现:付费链接和交换链接在互联网上很流行,许多Web垃圾页面出于商业目的而误导搜索引擎,它们利用各种技术获取在搜索引擎结果页面(search engines' result pages,简称SERP)上的虚假排名。因此,较高的PageRank不再是质量的保证,Google的PageRank面临着人为操作的巨大挑战。单纯依靠PR办法已遭到了各种样作弊行为的挑衅。因此需要其它技术去甄别良莠。
如何确定网页的PR值?可利用google工具条,使之在浏览网页时,自动出现其PR值。或登录http://tool.admin5.com/pr.html查询PR值。
2 TrustRank算法
改进排名的主流技术之一是借助于人工,专家能准确描述对网站的信任程度、轻易识别出垃圾。虽然人工可以很容易识别这些垃圾,但评估所有页面但代价很昂贵、是不可行的,所以就提出了一种半自动化技术方案。
TrustRank便应势而生,TrustRank是一种由斯坦福大学和雅虎研究人员提出的链接分析技术。Trustrank的基本思想是在为网页排名时,要考虑到该页面所在站点的信任指数和权威性。
Trustrank旨在应对轻易操纵google排名、提升搜索结果质量的作弊手段。实施这一方法极大地增加了短时间操作排名的难度,迅速改善了搜索结果的质量。所有要以TrustRank值作为网页排名的重要依据,页面的TrustRank用来评价其是否具有真正权威性。TrustRank用以将来自Spam的链接与优质内容带来的真正意义上的好评区别开来。
TrustRank的工作原理:先用人工去识别高质量的页面(即“种子”页面),那么由“种子”页面指向的页面也可能是高质量页面,即其TrustRank也高,与“种子”页面的链接越远,页面的TrustRank越低。
TrustRank采用半自动的方法区分垃圾文件和高质量较文件。依靠专家去评估一系列“种子”页面的TrustRank值。一旦确定了“种子”页面,就容易区分好页面和垃圾页面,通过机器分析链接结构来确定其它页面的TrustRank值。
TrustRank的主要概念是:
高质量页面一般不连接垃圾页面,而垃圾页面总试图连接到好页面以提高其声望;
种子页面的候选者是专业网站,它们只基于优点而链接其它页面,如政府网站、非谋利性网站和严格管理的网站(DMOZ、Yahoo目录、Search Engine Watch等),它们不会链接垃圾页面的。
最权威和可信的网页就是”种子”页面本身。
在处理上TrustRank分两个步骤,源目标的选定和评分的传递。
让专家手工识别出少量高质量网站,并赋予其信任值(trust value);
TrustRank值会随着页面的传递而降低,随着页面与“种子”页面的跨度增加,其TrustRank值就会越低;
与PR值原理类似,若网页获得了来自高TrustRank值网页的连接,则也就获得了高TrustRank值。通过分析这种链接结构,并以此比较其它页面,进而发现那些没有作弊可能性的页面。TrustRank传递方式与PageRank相似,但web页面没有内在的TrustRank值,因此使得通过链接模式去获取TrustRank值变得更加困难。
PageRank不是Google用于决定页面相关性的唯一算法,TrustRank已经被融入PageRank中以改善搜索相关性,其重要性不言而喻,甚至已经超过PR值的作用。
而随着时间的推移,Trustrank引起的新问题开始渐渐凸显,成为google的新麻烦:
搜索结果充斥着著名和权威站点的影子,即使这些页面内容可能是Spam。
用一些权重高的站点发布同样的内容页,排名要明显高得多。
优秀的个人或企业站点,尤其是新建的,即使内容再好,也难有排名优势。
这已严重影响了Google搜索结果的质量。因此,Trustrank在给Google带来众多积极意义的同时,其负面影响也凸显。Google如何改进算法和弥补不足,我们拭目以待。
3 Hilltop算法
HillTop也是搜索引擎结果排序的专利,是Google工程师Bharat在2001年发明的。Google的排序规则经常在变化,但变化最大的一次也就是2003年的基于HillTop算法的优化。
HillTop算法的指导思想和PageRank的一致,都通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定被链接网页的权重值。
Hilltop算法定义一个网站与其它网站的相关性,作为识别跨站点的链接交换干扰与识别相似链接的技术,以杜绝那些想通过任意链接来扰乱排名规则、那些想通过增加无效链接来提高网页PageRank值的做弊行为。
HillToP算法基本过程可以分为两步:
首先,根据查询寻找“专家网页”,专家网页是关于一定主题、指向许多非隶属网页、其中至少有一个短语包含查询关键词的网页。
其次,给顶部专家网页链向的目标网页打分,这个过程综合了它与所有相关专家网页的链接关系。
基于“专家”文档的HillTop算法最大的难点是第一次“专家文档”的筛选,目前,Google首先给了教育(.edu),政府(.gov)和非盈利组织(.org)站点很高的优先级。
作为对原始PageRank算法的补充,Hilltop算法具有以下优点
与原始的PageRank相比,Hilltop是主题灵敏的,通过来自“权威性”文挡的链接来确定网页的可信度。对于具有同样主题、PR相近的网页排序,HillTop算法显得非常重要。与以购买离题链接而获得高排名相比,这更难以人为操作。Hilltop解决了这个问题,随意性链接已经失去往日的作用,即使仍有一定的价值,但与来自于专家网站的链接相比,不能相提并论。
Hilltop与Trust Rank相似,但更加自动化。它依赖于专家文档和源于这些文档的链接,如X链接到Y,Y链接到Z,那么X和Z也相关。
然而,Hiltop在应用中还存在如下一些问题:
专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性;而专家页面的质量和公平性在一定程度上难以保证。
Hiltop忽略了大多数非专家页面的影响。
在Hiltop的原型系统中,专家页面只占到整个页面的1.79%,不能全面反映民意。
Hiltop算法在无法得到足够的专家页面子集时(少于两个专家页面),返回为空,即Hiltop适合于对查询排序进行求精,而不能覆盖。这意味着Hilltop可以与某个页面排序算法结合,提高精度,而不适合作为一个独立的页面排序算法。
Hilltop中根据查询主题从专家页面集合中选取与主题相关的子集也是在线运行的,这与前面提到的HITS算法一样会影响查询响应时间。随着专家页面集合的增大,算法的可伸缩性存在不足之处。
1.1.5 HITS算法
HITS(Hyperlink-Induced Topic Search)是由Kleinberg在90年代末提出的基于链接分析的网页排名算法。该算法与查询相关。
用HITS算法评估网页质量,可得到内容权威度(Authority)和链接权威度(Hub)。内容权威度与网页自身直接提供内容信息的质量相关,网页被引用得越多,其内容权威度越高;而链接权威度与网页提供的超链接的质量相关,引用内容质量高的网页越多,网页的链接权威度越高。
一个好中心网页应该指向很多权威性网页,而一个好的权威性网页则应该被很多好的中心性网页所指向。对整个Web集合而言,Authority和Hub是相互依赖、相互加强、相互优化的关系,这是HITS算法的基础。
HITS算法的施行是“迭代—收敛”的过程,即网页A链接权威度的数值是通过其链向的网页的内容权威度决定的,而网页A的内容权威度的数值则是由链向其的网页的链接权威度决定的。Authority和hub的值相互递归定义,即authority的值是指向给页面的hub值之和,而hub的值则是该页面指向的页面的authority值之和。
每个节点的Hub和Authority的值用下述算法计算:
• 赋予每个节点的hub值和authority值都为1。
• 运行Authority更新规则。
• 运行Hub更新规则。
• Normalize数值,即每个节点的Hub值除所有Hub值之和,每个Authority值除所有Authority值之和。
• 必要时从第二步开始重复。
在实施中还要考虑被链接页面的相关性。该算法要完成一系列迭代过程,每个迭代过程包含两个基本步骤:
• Authority值更新:更新每个节点的Authority值,为该节点指向的Hub的数值之和。即由信息Hubs链接的节点被赋予了高authority值。
• Hub值更新:更新每个节点的Hub值,使之等于它指向的每个节点的Authority值之和。即通过链接到同一主题的authorities节点的节点被赋予了高hub值。
因在上述伪代码中,hub和authority的值不收敛,有必要限制该算法的迭代步数。方法之一是,在每步之后规范化hub和authority的值,即通过:dividing each authority value by the sum of all authority values, and dividing each hub value by the sum of all hub values.
与PageRank相似,HITS也是基于Web文档链接的迭代算法,然而也有一些重要差别:
• 它是在查询时执行,而不是在建立索引时执行,与查询性能如时间等相关。因此,赋予页面的hub和authority权值也是query-specific。
• 它不是搜索引擎通用的技术(虽然据说Ask.com的Teoma使用了相似的算法)。
• 它计算了文档的两种权重即hub和authority,而非一种权重。
• 它只处理相关文档的很小子集,而PageRank针对文档全集。
1.1.6 微软的BrowseRank技术
网页被访问的次数也是搜索引擎决定网页排名的关键因素。通过搜索引擎访问某个网页时,搜索引擎对这种访问是由记录的,以便作为排名网页的指标。在某些搜索引擎中影响排名的一个因素是点击流行度,对在搜索结果中网页链接的点击次数、页面被访问的次数可能会被统计。经常被点击的页面的点击流行度就较高。当访问者从搜索结果中点击网站时,搜索引擎将给网站奖励一定分数。如果网站得到较高的点击量(根据IP地址),那么也将得到更多的分数。
谷歌在忙于改进PageRank,旨在使重要网页得到高PageRank排名,而微软称PageRank没有实现这个目标,因为它阻止不了人为提高网页的重要性。微软微软称BrowseRank方法更优越、能成为搜索引擎的支撑技术,该技术在决定搜索结果的相关性时,考虑了用户浏览网页或网站的时间,反映出人类的实际行为。用户行为数据可以由网络客户端的互联网浏览器记录和在网络服务器上搜集。
微软研究人员指出,用户浏览图更能确切地描述浏览者的随机行进过程,因此,对计算页面的重要性更有用。用户访问网页的次数越多、在网页上浏览的时间越长,网页就可能更重要。利用这个图评估数百万用户对网页的重要性,进行“隐式投票”。
BrowseRank是可行方案吗?我们拭目以待。然而它也有其以下软肋:
因BrowseRank考虑了用户在具体网站上的所用的时间,很明显这有利于social networking网站。然而,这种网站的内容并非具有普遍价值或对大多数浏览者有用。这个因素使BrowseRank失效,因它能导致许多不相关的、垃圾的结果。
微软认为,依赖于链接的PageRank不可靠,因Web上的链接可以由Web内容的创建者任意增减。而用户行为的可靠性也值得怀疑,因这也能以各种方式操作。网站管理员不用购买链接,而是雇佣廉价的Web浏览者在其网站上“耕作”。
最大问题是如何获得这种时间信息。网站需要传递这种信息的机制,这有待时日去实现。
用浏览时间评估网页的重要性也不完全公道。因内容性网站尽量保持浏览者长时间浏览网站,而交易性网站聚焦于用户如何尽快完成交易,导航性网页也旨在那用户快速导向目的网页。
1.1.7 Alexa流量排名
Alexa通过Alexa工具条收集用户上网信息、统计网站流量以及相关信息。要想获得较好的Alexa流量排名,就应该下载和使用Alexa工具条,并倡导其他浏览者这么做。
Alexa为Alexadex.com提供搜寻引擎,并为A9.com搜寻引擎提供“网站信息”服务。
显示在ALEXA工具栏和其它地方的流量排名则是以三月平均流量数据为基础进行计算的。日流量反映网站单日流量,具有偶然性,而季度流量排名则比较客观。持续流量能更好地衡量网站,所以选择季度流量排名代表网站的总体流行程度。
Alexa流量排名基于Alexa工具条用户一个季度的历史流量数据,是页面浏览数和到达用户数的综合体现。
到达率(Reach)由某天访问网站的Alexa用户数目决定,被表示为浏览某个网站的互联网用户的百分比。Alexa的周平均到达率和季度平均到达率是日到达率的平均值。其季度变化取决于对比网站当前及前一季度的到达率。
页面访问量(Page Views)衡量Alexa用户浏览某个网站的页面数。同一用户在同一天对同一页面的多次浏览只被计算一次。页面的人均PV就是指浏网站览该者每天浏览此页面的平均值。其季度变化取决于比较网站当前PV和前一季度PV。
Alexa流量排名的特点是:
Alexa流量排名只针对顶级域名(网站),而不为页面、子域名提供单独排名;
若子域名被识别为博客和个人主页,则被单独提供排名,排名规则与顶级域名一样,但名次后带有星号;
镜像网站将被合并到原网站;
Alexa取样量大、资料易取得,被最广泛用于评估网站的受欢迎度。
如何计算变动(Movers & Shakers)?
变动列表基于平均到达率(用户数量)的变化。对于每个网站,计算平均周到达率,并将其与前些周的平均到达率进行比较。变化越明显,该网站的名次就越高。变动列表中的百分比变化基于到达率变化情况。
值得注意,变动显示的流量排名是周流量排名,这不同于在其它ALEXA服务上的季度平均流量排名和用来生成列表的到达率排名。
如何计算流量趋势图?
在趋势图中则采用日流量排名,可以更加清楚地反映短期的流量波动。趋势图呈现三日内日流量排名变化情况。在趋势图中,网站季度流量排名有可能高于其任何单日流量排名。任何天都有可能临时出现排名突出的某些网站。但是如果某网站有着持续流量表现,则有可能在整个季度的平均流量排名取得最佳名次。
软肋:
流量排名基于分析Alexa工具栏用户浏览网站的信息,经过分类、筛选和计算这些信息,得到排名。Alexa只基于使用Alexa工具条(即Alexa“社区”)用户的信息衡量网站浏览情况,而不能代表因特网的所有用户的信息,Alexa承认排名中几项不准确性:
使用量较小的网站很难准确估量。由于Alexa用户库是因特网民众的样本,流量相对低的网站可能因为样本统计局限性而得不到精确排名。Alexa数据来源于数百万Alexa工具栏用户这种庞大样本,仍不足以进行统计学计量、不足以精确地对每月访客少于1000的网站进行排名,流量在100,000位以后的排名也不可靠。网站的流量越大(越靠近第一位),其流量排名越可靠。
所采用的样本可能对不同浏览器的用户存在高估或低估的情况,具体程度不得而知。Alexa样本包括了IE、FIREFOX和MOZILLA用户,而不支持AOL/Netscape和Opera用户。
所采用的样本可能对使用不同操作系统的用户存在高估或低估的情况,具体程度不得而知。Alexa样本中包括了内建于Windows、Macintosh和Linux的工具条。
在某些情况下,流量数据也许会受我们对“网站”的定义。如镜像网站、域名、主页的变更不能得到及时反映。
在安全页面(HTTPS)上,Alexa工作栏将自动关闭,所以具备安全页面的网站可能会在Alexa流量数据上得不到充分体现。
数据规范化?Alexa排名方法在校正了大量的潜在偏差后才计算排名。校正基于浏览者的地理位置。在统计浏览者的分布时做了校正,校正了从Alexa工具条中采集的数据的潜在偏差,以更好地表示那么没有使用Alexa工具条的浏览者的情形
新排名算法除保留Alexa权威的流量和页面浏览等数据外,还考虑了获得的其它信息,如用户忠实度、Google PR值、互联网信任度、页面数量等多个新指标。
Alexa排名与Google Page Rank的比较
PageRank用10以内的数字为页面的外部链接的数量和质量排名;而Alexa排名基于近3个月的网站用户数目和浏览的页面数为网站排名。
Alexa从不基于网站因素而实施排名惩罚。
Alexa排名基于流量,而不主观;Google排名基于Google算法,若不符合此算法,网站即使好,也可能排名为0。
1.1.8 谷歌搜索引擎的服务趋向
Google秉持着开发“完美的搜索引擎”的信念,“确解用户之意,返回用户之需”,坚持不懈地追求创新,不受现有模型限制,开发出了具有突破性的PageRank™技术,使得搜索方式发生了根本性变化,而在业界独树一帜。
在谷歌诞生10周年之际,谷歌副总裁梅耶尔近期在其博客上陈述了对搜索未来的一些想法。她认为,虽然90%的搜索问题已经得以解决,但解决剩余10%的问题将需要几十年的时间。梅耶尔把当前的搜索技术比作16、17世纪时的生物学和物理学,并称由10条搜索结果链接组成的谷歌搜索页面才是刚刚开始,在搜索结果中加入图片、视频、新闻、书籍和地图的全面搜索是迈向正确方向的第一步。谷歌团队一直在为丰富媒体搜索结果改进界面设计和用户体验。用户将在未来几个月能看到谷歌的这些最新成果。梅耶尔还相信个性化将成为搜索的重要组成部分,个性化搜索能够更好的了解用户需求,搜索引擎将能做得更好。未来的搜索引擎或许可以知道你的地理位置,可能知道用户已经了解了哪些信息或者稍早时候获得的信息,还可能完全知道用户的偏好。用户的社交圈也同样重要,需要更好的利用用户的好友,从而了解用户会阅读哪些新闻,关注哪些本地事件。梅耶尔心目中理想的搜索引擎概念,即搜索引擎是你最好的朋友,能够帮助你立即获知全球所有信息,也是你所见过的或者知道的最好的照相存储器。
1.2 搜索引擎优化原理与策略
如今,Web浏览者已经习惯于通过搜索引擎查询信息,因此网站在搜索结果中的排名对增加流量很重要。搜索引擎优化(Search Engine Optimization,简称SEO)技术有助于改善网站的外观和质量、有助于提高网站在搜索引擎结果中的排名。网站在搜索结果中的排名越前,就越吸引浏览者访问网站,被用户访问的机会也就越大。
搜索引擎优化指通过提高在搜索引擎的的搜索结果中排名而增加网站访问量的过程。互联网用户的习惯性行为是不逐页点击搜索结果。因此,网站在搜索结果中的排名对导向网站的流量至关重要。SEO有助于确保网站是搜索引擎可访问的、增加网站被搜索引擎发现的机会。
根据搜索引擎的搜索与排名原理,对网站结构、网页内容和布局、网站之间的互动等进行小而合理的修改,以改善网站在搜索引擎的搜索表现,进而增加客户发现并访问网站的可能性。单看每个变化时似乎可有可无,但当与其它优化结合起来时,就会对网站产生巨大影响,无论是用户体验的满意度,还是在搜索引擎搜索结果中的表现。
SEO是一种网络营销方式,通过网站在搜索引擎中获得较好排名而赢得更多潜在客户。搜索引擎优化的目的是让搜索引擎蜘蛛更好地阅读和抓取。通过总结搜索引擎的排名规律,对网站进行合理优化,使网站在搜索引擎的排名提高,让搜索引擎为网站带来潜在客户。
在实际操作中,SEO以关键字为中心,通过对网站内容,网站结构及外部链接等的优化,使该关键字在搜索引擎查询结果页面上获得理想排名,出现在靠前的位置。
SEO的工作方式。SEO通过了解各类搜索引擎如何抓取互联网页面、如何建立索引、以及如何确定搜索引擎结果对某些特定关键词的搜索结果排名等技术,来对网站网页进行相关的优化,提升网站的综合能力,从而提高在搜索引擎上的排名,
让网站对搜索引擎友好是搜索引擎优化的基础。搜索引擎优化建立在用户搜索体验为中心的基础之上,通过提高网页级别、建立合理而顺畅的网站链接结构、丰富的网站内容及表现形式,使网站自身结构、网页代码适应搜索引擎的抓取文档,进而在搜索结果上获得较前排名。
SEO贯穿于网站策划、建设、运营、推广全过程,通过制定和执行有针对性的网站优化策略,依靠搜索引擎平台为企业引入潜在用户,是企业网站、商业网站开展网络营销推广的重要方式。SEO分析的几个切入角度:
从市场角度:分析网站定位、目标、资源、现状,竞争状况,确定核心关键词等。
从技术角度:分析网站的结构、网站导航、内部链接、导出链接、域名、url等。
从推广角度:网站导入链接,目前被搜索引擎收录的情况等。
从运营角度:内容编辑质量、原创数量、更新速度、蜘蛛到访频率;网站硬件平台质量,稳定性,同IP网站搜索引擎表现。
从历史角度:网站以往的推广措施,是否受到过惩罚、排名历史情况、域名注册时间长短、网站是否进行过大的改版?主题定位是否发生了变化等。
1.2.1搜索引擎优化原理
网站优化与搜索引擎优化不同。网站优化包括网站搜索引擎优化、网络环境优化和用户体验优化。网站设计人员在设计网站时,往往主要考虑如何吸引用户,而忽视了对搜索引擎的友好性。以下主要讨论针对搜索引擎的优化。
SEO虽然名义上是针对搜索引擎的优化,但应该把优化策略首先基于网站用户的需求。用户是网站内容的最终消费者,他们要利用搜索引擎找到具有相关信息的网站。仅仅聚焦于在搜索引擎结果中的排名,或许会弄巧成拙。
任何搜索引擎都有其独特的排名算法,因此,在优化时只能顾及大方向,然后综合考虑各种搜索引擎的具体要求。根据经验,若面向百度则要注重网站内部优化;若面向Google则要注重网站外部优化。
使页面对搜索引擎检索容易!如何创建页面,为搜索引擎蜘蛛提供它们想要的信息呢?
记住游戏规则,别着迷与设计页面外观或链接地址,而忘记了SEO基本规则。页面需要上好内容、元标记、高声望的链接、合适的关键词,这样才有可能登上搜索引擎排名前列。
蜘蛛是机器。在设计网站时,要牢记它将被机器阅读。这意味着若你把主页的标题换成图片,蜘蛛就是识别不了标题,也不知道核心文本从哪里开始,虽然这对人没有任何问题。
搜索引擎赖以文本而工作。它们检索页面内容、页面标题、元标记等,并把这类信息记录在数据库中。没有文本,搜索引擎就无所适从。而且,若搜索引擎触及不到页面,其上的文本也无济于事。搜索引擎必须能根据主页上的链接到网站的其它页面,以便搜索其文本内容。
“Web网站如同沙土城堡而非铜墙铁壁”,即Web网站建设是循序渐进过程,要做有规律地维护。
在设计和优化网站时,要考虑哪些因素呢?从搜索引擎蜘蛛的视角看,搜索引擎蜘蛛在检索、抓取和分析页面时会遇到哪些问题?解决了这些问题的网站就是搜索引擎友好的。
搜索引擎蜘蛛能不能找到网页很关键。要让搜索引擎找到主页,就要有外部链接,在找到主页之后,还必须能找到内部网页,也就要求网站具有良好的物理结构,网页之间要有良好的链接结构(逻辑结构),所有页面都要能从主页开始,顺着链接能找到,最好在3次点击之内,链接以文字链接最好。网站需要有网站地图,把所有重要网页都列上。
搜索引擎蜘蛛找到网页后能不能顺利抓取到网页也不容忽视。只要搜索引擎能顺利找到、抓取和分析网页内容,网站才是搜索引擎友好的。同时网页的HTML代码要做优化处理,格式标签要少,内容要多,整个文件要小。
应该排除那些不利因素,如flash和java script等;使用这些技术得不偿失,它们不能给网站增色,往往有害于网站的表现。如果必须要使用这些脚本,把它们作为外部文件。把CSS也要放在外部文件中。
网站设计越简单越好。文字内容的比重应该大于HTML格式的比重。整个网页应该规范化,应该在所有浏览器上能正常显示。符合HTML3.2标准,搜索引擎蜘蛛目前还不太适应HTML4.0标准。
若网页是由数据库动态生成的,那么URL一般要改写成静态的,即要去掉URL中参数符号和Session ID等。搜索引擎并非无能读取这种URL,但是为了避免陷入无限循环,而通常远离这类URL。若网站整体上基于flash,那也没办法读取。框架结构(frame)是搜索引擎蜘蛛的大敌。总之,要尽量去除不必要的、搜索引擎不能读的东西,如像音频文件,图片,弹出窗口等。
1.2.2 搜索引擎优化策略
用户在使用搜索引擎查询信息时,实际上是在搜索被搜索引擎预整理好的网页索引数据库。当用户查找某个关键词的时候,所有包含该关键词的网页都将被作为搜索结果并按照相关指标排列和显示出来,如网页与搜索关键词的相关度、网页被引用(链接)的程度等。
SEO策略指利用各种资源以充分发挥SEO作用的手段。SEO在原则上基于搜索引擎排名原理,但还要考虑其它相关因素,如服务器的性能、网站结构、网页布局、内容与主题、关键词选取与布置等。注重用户体验的网站自然会受到用户的追捧,优质内容自然也会获得更多的外部链接。
在优化时,要把关键词的选取和布局、网页内容的创建及其描述和布局放在首位;内部链接(逻辑结构)同目录结构基本上属于同一个层次;外部链接是网站的流量的重要来源。
若在激烈的市场竞争中占有一席之地,要有持续不懈的SEO策略,即监视网站,确保排名稳定;持续的链接发展运动,要考虑浏览者因素;要理解SEO需要时间,不是一周可以见效的事情,往往需要数月才能见效;要理解SEO应该是在线营销策略的组成部分,有利于提高网站流量;增加网站流量才是最终目标。
搜索引擎关注,文本(关键词)即与潜在用户在搜索引擎中输入的查询字符串相匹配的单词和短语;网站导航即搜索引擎蜘蛛能轻易跟踪的网站导航URL结构,对网站的链接(外部链接)即标志着网站的流行度。因此SEO的基本概念有:
关键词,利用针对潜在用户的文本,吸引搜索引擎和外部站点的链接。
导航模式,有助于浏览者和蜘蛛能轻易找到内容。
设计要素,确保细节不破坏SEO效果。
Page Rank,研究链接策略以提高网站的流行。
搜索引擎优化是一个持续过程。网站排名可能会波动。竞争对手们也在优化他们的网站、更新页面内容,搜索引擎也在不断地更新排名算法。
1.3 网站结构及其优化
网站结构设计要清晰明了,容易被用户浏览和被搜索引擎爬虫抓取。网站结构分为两种,即逻辑结构和物理结构。
物理结构指网站真实的目录及文件所存储的位置所决定的结构。物理结构可以有两种:扁平式结构,所有网页都存在网站根目录下,这比较适合于小型的网站;但被事实证明是很见效的方法。树型结构,根目录下分成多个子目录,然后在每一个子目录下再放上相应的网页,对稍有些规模的网站来说,树型逻辑结构比较容易管理。
逻辑结构(也称为链接结构)是由网页内部链接所形成的逻辑的或链接的网络有向图。搜索引擎更关注由链接形成的逻辑结构,被收录的容易性在于离主页有几次点击距离,而不是它的物理位置。蜘蛛根据网站的内部链接处理页面,首先处理根目录中的页面,其次是第一级目录,或许会处理第二级目录,但通常不会处理第三级目录。因此,大多数专业网站具有扁平结构。
1.3.1 服务器与域名选择
服务器的地区分布影响排名。对于搜索引擎而言,针对不同的区域,有不同的搜索结果。SEO的排名效果不是为了网站管理员自恋,而是为了为其吸引潜在客户。相同的英文关键词,用相同的方法,放在美国服务器上的网站总排在搜索结果的首页。所以服务器的区域选择应选瞄准潜在客户群体所在的区域。
同样,服务器性能对搜索引擎也至关重要。服务器速度快了,蜘蛛爬行网站候效率就高,用户满意度也高。服务器运行要稳定,能提供7X24服务。
如何检查服务器质量?通过检查服务器上网站被搜索引擎收录情况而定。检查步骤是:首先检查服务器上放了多少网站?根据如下工具可以查出有多少域名指向同一个IP:(http://www.seologs.com/ip-domains.html)。其次,选择其中的www.###.com,在Google中输入:site:www.###.com,检查Google收录该网站页面的情况。若发现Google还没有收录它,就多查几个网站,若大部分都是没有被Google收录,则很可能该服务器被Google处罚过的。一般而言,被google处罚的域名(网站)比较多,而被Google处罚的服务器相对较少。
域名选择。应该选择容易建立品牌的域名,选择诸如Google.com的域名,而不是keyword.com。域名当中所包含的关键词曾经有作用,但现在的作用非常小,充斥着关键词的域名应该被抛弃。
二级域名和目录。二级域名在中文网站中很流行,其中充斥着大量垃圾内容。建议使用目录,除非在特别需要时,不要轻易使用二级域名。
设计与优化原则如下:域名若要包含关键词,可以选择与关键词相关的英语域名或汉语拼音域名。文件名要用关键词,并且各个单词之间要用中横线“-”分开,不要用下横线。顶级域名比二级域名和子目录优先(知名网站、权威网站的二级域名除外)。二级域名比栏目页有优势,栏目页比内页有优势。静态路径比动态路径有优势。目录的层次不要太深,最多不要超过3层,层次越深,权重越低。
1.3.2 网站地图及其提交
创建蜘蛛友好的网站地图,以便搜索引擎蜘蛛发现所有页面。因此,主页上要有对网站地图的链接。网站地图本质上是网站页面的分类列表。网站地图分为两种,即普通Html网站地图(文件名为“sitemap.htm”)和XML Sitemap:普通Html格式的网站地图,目的在于帮助用户从宏观上了解网站。Html格式的网站地图根据网站结构特征制定,尽量把网站的功能结构和服务内容富有条理地列出来。首页底部应有指向这种网站地图的链接,其猫文本为“Site Map”。XML Sitemap通常称为Sitemap,包括所有URL、页面更新时间、URL的相对权重等。制作并给搜索引擎提交Sitemap,以便网站内容被搜索引擎更好地收录。XML Sitemap 可以帮助搜索引擎机器人抓取原本不好获得的、隐藏比较深的页面。
若站点很简单、所有页面均可通过html链接到达,且层次不超过三层,则不用XML Sitemap也会被全部收录。虽然说网站排名与XML Sitemap并没有直接的关系,但因为XML Sitemap为搜索引擎提供了站点的更多信息,有利于搜索引擎更好地评估站点,有助于提高其排名。
1. 向搜索引擎提交网站
为了便于被搜索引擎及时发现,有必要向搜索引擎及其关注的著名目录提交网站。最简单方式是把网站所有页面的URL单独列出来,命名为Sitemap.txt,然后直接提交给Google。其它搜索引擎则不支持这种方式。对于Google搜索引擎,XML Sitemap可以放在任何能爬取到的位置,包括其他网站上,通过Google网站管理员工具把存放地址提交Google;对其他搜索引擎而言,需要放在网站根目录,同样需要提交。
以下是向几个重要搜索引擎提交网站的地址:
百度:http://www.baidu.com/search/url_submit.html
Google:http://www.google.com/intl/zh-CN/add_url.html
Google网站地图注册:https://www.google.com/webmasters/sitemaps/login
中国雅虎:http://search.help.cn.yahoo.com/h4_4.html
微软Live&Msn:http://search.msn.com.cn/docs/submit.aspx
网易有道:http://tellbot.yodao.com/report
2. 向分类目录提交网站
为了便于被搜索引擎及时发现,还有必要向著名的分类目录提交网站。
分类目录分为免费登录和付费登录,都须通过手工输入登录。在分类目录上发布网站信息非常重要,其重要性不在于访问者是否通过目录链接找到网站,而主要在于通过这些目录使网站获得了重要的、高质量的外部链接。因此,对于网站提高排名具有举足轻重的作用。对于中文网站来说,最重要的分类目录有开放式目录ODP、Yahoo!门户搜索引擎目录等。
在免费分类目录中,最著名的是开放式目录库Open Directory Project:www.dmoz.org。向ODP提交网站是网站完成后的首要工作。虽然ODP目录是免费的,但要接受较为严格的人工审核和较长等待期,并且不能保证一提交就成功,可能需要反复提交。以下是提交必须遵守的注意事项:确保网站内容是原创而非转载、镜象或复制,不要采用虚假、作弊和夸张手段,确保网站具有良好外观,确保网站中包含具体联系信息,确保网站提交到正确的目录,记下提交日期、目录名和编辑邮箱。网站一旦被DMOZ收录,那很快就可以被Google、Lycos、Netscape、AOL、HotBot和DirectHit等大型搜索引擎和门户网站收录。
3 创建网站地图的工具
eXactMapper Lite,自动创建专业网站地图.为用户提供三种不同的、可定制的html/dhtml网站地图的风格,包括UL列表,母本树和索引页。
SiteMapBuilder.NET,可自行创建Google XML网站地图或以网站地图为基础的文本,能检查出URL错误。需要NET框架支持。
Sitemap Creator,将目录结构输送到html文件上后创建网站地图。不需要浏览在线网站.
Sitemap 4 traffic,可以创建Google和html网站地图,检查不健全的链接,支持网站文件。需要Net框架1.1版本或更高版本和浏览器6+支持。
用生成器创建Sitemap,见http://www.google.cn/support/webmasters/?hl=zh-CN。
4. 搜索引擎的沙盒效应(Sandbox)
新上线的网站起初在Google很难有好的排名,甚至没有排名,这种现象被称为沙盒效应(Sandbox)。
Google的沙盒效应一般会持续6个月至一年,期间新站应该不断完善。期间需要不断提交网站,因它有可能被搜索引擎删除掉。这是游戏规则,需要认真对待。在沙盒效应过后,一般会有不错的排名。百度对新站也有一个为期2个月的建立信任期,这两个月内,若频繁修改网站结构、文章标题,会造成百度对站点信任度的降低。
凡事不能立竿见影。获得良好的搜索引擎排名也需要时间。这是识别专家和班门弄斧者的方法之一。搜索引擎不愿意公布其方法和技术,这属于商业机密。但很多事实说明了时间的重要性。搜索引擎不相信新网站会有良好表现,新网站尚处于摇篮期有待成熟,把新网站当真未免显得太憨;这样也可以减轻搜索引擎的处理压力。很多搜索引擎可能在网站上线六个月之后才去检索。如同新入盟公司的职员要经历试用期以便确认其能否胜任工作,沙盒效应大多用于阻止垃圾网站。当网站处于沙盒效应中时,网站管理员要不断地上传原创性文章,以便自然地增加其外部链接。新网站即使已经做了很好的SEO优化,如拥有丰富的相关内容、大量的高质量外部链接、网站URL搜索引擎友好和网站结构用户体验友好等,但在刚上线的几个月内,在Google上几乎没有好排名。
如前所述,Google的TrustRank用于评估网站的可信度,以便进一步改进其搜索结果的效能和相关性。决定TrustRank的主要因素是域名年龄和链接源网站的质量。最好的方法是要有规律地增加新内容,顺其自然;而不要认为操纵链接、购买付费链接或滥用关键词。
Sandbox和trustrank在本质上几乎是同一算法的二个极端。沙盒效应是网站管理员想摆脱的状态,而trustbox则是网站管理员想获得的状态。当站点的Trustrank非常低时,该站点便进入了所谓的Sandbox,随着站点的信任指数逐渐增加,就逐步从Sandbox过度到正常状态,再进入trustbox状态。在Sandbox中,站点不受搜索引擎注意;而trustbox中,站点会受到搜索引擎的格外重视。若站点处于sandbox状态,不妨乐观地认为站点进入了trustbox,尚需赢得足够信任而已。摆脱SandBox的站点才可能获得高TrustRank值。
1.3.3 蜘蛛搜索协议(robots.txt)
蜘蛛搜索协议robots.txt(Robots Exclusion Protocol)是业界的事实标准,它不属于任何标准化组织。网站管理员可利用该协议件对robots作出访问限制。没有作出明确限制,就被认为是允许robots检索的。Google、雅虎和微软搜索引擎都尊重robots.txt文件及Meta标签的标准规范和约束。
一般把robots.txt放在根目录下,当Robot访问Web站点时,先检查根目录中是否存在文件robots.txt文件。若存在,它便会分析该文件,以确定是否应该访问该站点及其文件;通常,浏览者看不到这个文件。
Robots.txt有两个元素,即User-agent和Disallow。其记录格式是:
其记录通常以一行或多行User-agent开始,后面加上若干Disallow行,表示不希望Robot访问的URL,每个URL必须单独占一行,不能出现Disallow: /cgi-bin/tmp/之类的语句。
相关几个参数的意思如下:User-agent,用于描述搜索引擎robot的名字,如果有多条User-agent记录说明有多个robot会受到该协议限制;如果需要限制robots,那么至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何蜘蛛都有效,User-agent: *只有一条。Disallow,该值用于禁止robot访问的URL,URL是完整路径或相对路径。
在使用robots.txt是,要考虑以下两点:一是有些Robots不顾及robots.txt,如探测web安全漏洞的恶意蜘蛛、电子邮件地址harvesters。二是Robots.txt文件对公众是开放的,任何人都可以看到服务器对蜘蛛作出的访问限制。因此,别用robots.txt去隐藏信息,要隐藏信息就得通过服务器设置。
在建设网站时,良好规范是要在根目录中包含robots.txt文件,即使不想限定搜索引擎的搜索也罢。robots.txt起码有助于搜索引擎避免浪费时间去处理图像目录,因蜘蛛不愿劳心去完全检索网站,特别针对新网站。Robots.txt有助于引导搜索引擎检索网站的重要页面。
两种robots.txt工具。robots.txt checker能检查网站的robots.txt文件和元标签。IP Lookup有助于找出那些蜘蛛访问了网站。
1.3.4 链接优化策略
链接是网站排名的重要因素,因此要为搜索引擎准备充分的基本链接(大多数搜索引擎不搜索动态链接)以便搜索。站点地图是为搜索引擎提供链接的很好方法,因此网站应提供基本链接地图。
链接是从网页指向另一个目标的连接关系,这个目标是Web上的任何信息资源,如网页、图片、程序、相同网页上的其他位置。如果单击链接上的文字或图片,则相当于指示浏览器移至同一网页内的某个位置,或打开一个新网页。链接的猫文本很重要,从搜索引擎的角度出发,链接不要用FLASH按钮和图片,而是使用文本,其中应有策略性关键词。
链接以特殊编码的文本或图形形式来实现信息资源之间的连接。链接是网页内的对象,在本质上属于网页的有机组成部分。各个网页链接在一起后,才真正构成网站。
链接的URL是信息资源的地址,如http://www.baidu.com。完整的URL包括协议、域名、端口号、目录名和文件名。
常用的链接分类方法有,根据链接对象分为文本超链接、图像(多媒体)链接和E-mail链接等。根据链接方向分为导出链接、导入链接和内部链接。根据链接的范围,分为页内链接和页外链接。根据链接地址的完整性分为绝对URL链接、相对URL链接和网页内部链接即书签。根据页面是否在服务器上存在分为动态连接和静态连接。
设计和优化链接的策略有七个。
1. 书写得体的URL
一切以浏览者为中心。在静态网页时代,基于内容的逻辑性,把文档组织在目录中。如有新闻频道,就放在/news/year/month/目录中。而在动态地呈现内容时,这种约定就不能用了。
隐藏所使用的技术。良好的网站结构要求在链接中不能暴露网站技术。如当主页是default.asp时,人们能猜测出网站的制作技术。这还不是关键问题所在。当要用PHP重写网站时,那么需要把URLs从.asp换成php。而其例外是.htm 或.html页面,可用任何web语言创建。隐藏技术的另一个优点是使黑客对网站的破坏更加困难。
若不费力,也应该在URL中包含关键词。让用户看到URL,就可以大致了解网页的主题和内容。URL中的关键词对搜索引擎排名还是有作用的,用dashes分开。我们不能保证这是谷歌算法的因素,但排名在前的页面大多在域名或页面URL中包含关键词。即使它不是谷歌的计算因素,而肯定是一些小搜索引擎的计算因素。但最好不要为了放关键词,而把目录名文件名弄得很长、包含过多的单词则肯定被搜索引擎视为作弊。
若在目录名文件名中放上中文字,或者有时候有空格,这样的URL出现在浏览器地址栏的时候,都会变成一些编码字符。虽然搜索引擎可以辨识,但不雅观。
用连词符,在URL、目录名、文件名中,单词之间最好用连词符-,这是IT规范。不要用下划线_,肯定不能用空格,空格在搜索结果中被编码成“%20”,很不雅观的,部分旧浏览器也难处理空格。连词符会被当作空格处理,看起来整洁,在google中也有良好表现。
大小写,URL中最好统一全部使用小写字母。大多数网站基于Unix/Linux服务器,后者对大小写字母敏感。小写字母便于人识别和键入。
URL静态化,这几乎是必须的。不要争辩说有很多带有一两个问号的URL都被收录得很好。其实能做得更好也很简单,不要去跟做得不好的看齐。许多搜索引擎不能处理动态URLs。
图片链接的注释,要为链接增加title=“注释内容”。图片注释标签,alt=“注释内容”,ALT注释要简明,不要冗长,否则会被视为作弊。
2. 链接的锚文本
链接的锚文本(Anchor Text)是链接中的可见、可点击的文本。包含在锚文本中的单词能决定页面在搜索引擎上获得的排名。锚文本通常给出链接目标文件的内容的相关描述或语境信息。锚文本在搜索引擎算法中的权重很高,因目标文本通常与源页面相关。搜索引擎的目标是提供很相关的搜索结果,这是锚文本的重要性所在,因趋势是锚文本与源页面相关。
网站管理员可利用锚文本获取在搜索引擎结果页面中高排名。Google的网站管理员工具实施这种优化,要求网站管理员研究导入链接的猫文的单词。
锚文本可以与链接地址的实际内容相关,也可以不相关。因此,Google bombing就利用锚文本作弊。但从2007年1月起,Google更新了其算法,减少了Google bombs的影响。
锚文本,对页面的描述比页面本身更准确,尤其对不能被基于文本的搜索引擎所检索的文档如图像、程序和数据库而言,因此锚文本的意义比页面大。
锚文本描述目标页面的内容,影响着该页面的相关性,因此避免使用“click here”链接。
3. 网站导航与内部链接
网站既有物理结构,又有逻辑结构(页面之间相互链接)。网站要具有明确的逻辑层次结构,这可用文本链接导航或图像导航实现。整个网站的结构看起来更像蜘蛛网,既有栏目组成的主脉,也有网页之间的适当链接。所有网页上都要有指向网站地图页面的链接。导航模式要有利于浏览者和搜索引擎。若网站没有导航模式,页面排名将不会很好。
文本链接,大多数搜索引擎对文本链接比较友好,用于一级或二次导航,每个页面都应从一个文本链接能到达。若利用图像导航,则要使用alt文本。避免使用JavaScript,除非为网站提供二级文本导航模式。
有问题的导航模式是,Poor HTML coding,图像导航、Frames、JavaScript、动态页面、Flash页面。
合理的网站链接结构有以下特点:
首先,要建立完整的网站地图。网站地图是方便搜索引擎和用户快速查找信息的,网站地图中的链接指向网站的重要网页,应该在首页给予其链接指向,以便搜索引擎发现和抓取该网页。
其次,网站导航是为引导用户访问网站的的栏目、菜单、在线帮助、布局结构等形式的统称。网站导航的目的在于引导用户方便地访问网站内容,告诉浏览者网站的主要内容和功能,告诉浏览者所在网站的位置,告诉浏览者访问过的页面(链接为紫色)。网站导航是评价网站专业度、可用度的重要指标。导航结构要清晰明了,网站导航链接是搜索引擎蜘蛛向下爬行的重要线路,也是保证网站频道之间互通的桥梁,超链接要用文本链接,尽量使用文字导航(文字链接)。网站导航中的链接文字应该准确描述栏目内容,即链接文字中要有关键词,但不要在这里堆砌关键词。在网页软文中提到其他网页内容时,要使用关键词链接到其他网页。网站导航中的文字链接如何放置需要一定的策略,这跟网站频道的重要性或者说网站的特色有关,一般按频道的重要性依次排列。若要使用图片作为网站导航链接,那就对图片进行优化,以图片链接指向页面的主要关键词作为ALT内容,另外在图片下搭配文字链接作为辅助。
再者,面包屑导航的意义在于明确告知用户目前处于网站的何种位置,方便用户通过该导航快速达到上级页面,这种导航的设计是应该在当前窗口打开的。面包屑导航应该列出用户所处页面的所有上级网页的名称及链接,这里是文字链接,若频道名称、分类名称、子分类名称设计得好,则下级页面通过以关键词为锚文本的链接指向上级页面。
外部链接对网站排名至关重要,反向链接中的关键词是排名的重要因素之一。但也不要忽略了站内链接(内部链接或交叉连接)的作用 。内部链接旨在把网站内高质量的内容连接起来。对Google来说,基于相似内容的相互链接对网站内分享PR是非常重要的。以实现网站PR的传递和流动,好的网站整体结构,其PR传递应该是很均匀的,首页最高,栏目页次之,内容页再次。网站不需要使其他网页黯然失色的某个明星网页,如果发现网站里面有一页确实吸引大部分流量,那么就应该把该页的PR通过链接分散到其他网页。若用户在浏览完一篇文章后,文章内容结尾处提供了相关文章,很可能通过相关文章进行深入挖掘,这种方式可以使用户达到最大的满意度。但要注意网页离首页不能超过三个层次。因此,可以通过网页链接影响PR值的传递,使某一页或重要页面PR值和重要性升高。内部链接可用nofollow控制权重分布,若在链接放上nofollow,可以主动控制链接权重及PR在网站中的分布。
4. 图像链接的Alt描述
Alt描述是在图像装载前在图像位置上显示的文本。其正常用法是在浏览器不能显示图像时为浏览者显示该文字。
利用猫文本去显示关键词是一种作弊手段,曾被滥用,被植入长串关键词列表,蜘蛛不理会它们或甚至惩罚这种滥用。
5. 增加反向链接的策略
用户通过超级链查找网站内容,搜索引擎蜘蛛通过跟踪页面中的链接以完成对网站信息的检索和处理。
对搜索引擎尤其对Google而言,决定网站排名的关键因素是外部有多少高质量的链接指向这个网站。外部链接或反向链接或导入链接(Inbound links或backlinks)指从其它网站指向自己网站的链接。如前所述,外部链接相当于是对页面的投票,当网站被其它网站链接时,相当于为该网站投了赞成票,这对提升网站PR值和搜索引擎排名有益。
如何精确查询网站的反向链接数量?反向链接可以用语法来查:link:url。如要查百度的反向链接,就输入“link:www.baidu.com”。
基于Page Rank的优化技术
链接流行度(Link Popularity)是评价Web知名度的基本指标,基于外部链接数目为页面的赋值;各种搜索引擎的流行度算法不同,Google的算法是Page Rank,其赋值为0-10。网站来自流行页面的外部链接越多,页面的流行度排名越高;即反向链接数量越多,说明站点越有价值,网站流行度越高。链接流行度不是本网站所能控制的,但可用策略来提高链接流行度。因此,有必要适当地建立内部链接以给页面传递PR值。
影响流行度的因素有外部链接的锚文本、外部链接的数目及其流行度。注意,流行度是针对页面的,而不针对网站;流行度也不能被继承。
因此,选择链接源网页的原则是,高PR值页面;或PR值不是太高但导出链接较少的页面;或权威网站的主要页面。因此,除了追求PageRank外,要聚焦于权威性链接。一个高PR值的网站的链接胜于多个低PR值的链接。
获取反向链接的方法很多,比如向著名搜索引擎目录如Yahoo和DMOZ提交(有助于蜘蛛发现)、专家链接诱饵、与主题相关的网站建立互惠链接(友情链接)、网络广告、站点合作等等。当然其关键是网站的质量要高,有规律地更新内容,提供有价值的信息,其它网站管理员发现它有价值,就会主动进行链接,这都有助于提高网站的排名。一般而言,大多数SEO公司将推荐应该寻求链接的网站类型,如组织结构的网站、专业社区网站等。
基于Trust Rank的优化技术
Hilltop和TrustRank是Google用于防范垃圾和过分使用SEO技术的措施。在这两者实施之前,搜索引擎优化技术人员能通过获得高PR链接而稳居关键词查询结果排名的前列。而使用这两个算法后,这种游戏就有点困难。
Google利用Trust Rank区分种子页面和商业垃圾页面。因此SEO面临的挑战是如何找到这些种子页面或网站,并设法取得从这些页面的链接。
在分析要获得链接的潜在网站时,寻找种子网站或有种子网页的网站。域名年龄很重要,因新商业域名不会被标记为种子网站,而那些开展免费服务和研发某些业务模型的老域名更有可能是种子网站或含有种子页面。若认为某个网站有种子潜力,那么值得努力去从中获得链接,这或许需要你花费时间或资金,但至少将获得一个高质量链接。
因TrustRank问世较早,很有可能已经被Google改进和优化。无疑,权威性链接是有价值的,种子是权威性链接的核心所在。
基于Hilltop的优化技术
基于Hilltop的优化需要找出专家文档并设法从中获得链接。这是基本的链接优化策略:致力于从最权威的网站获得链接。
寻找权威性网站的简易方法是在搜索结果中寻找具有权威列表的站点,权威里表中包括sitelinks。Site links(image example)是搜索结果中的第一个链接。有些网站具有很高的权威性,and rank for generic terms with sitelinks.一般而言,sitelinks are shown for brand searches like “seo chat,” 而一旦网站被显示成具有通用术语如“seo”的sitelinks,则说明该网站是那个主题上的高度可信的权威。
万变不离其宗,建立链接要基于信息相关性。网站管理员题突出,就受到用户亲睐,得到的外部链接就越多。
如今PageRank技术日趋复杂,如能识别和忽视关键词堆砌等,这沉重打击了那些企图通过建立人工链接去提高排名的网站管理员。但别受“链接数量之上”的说法愚弄,对于排名而言,质量优于数量。建立丰富而有质量的反向链接始终是SEO重要工作之一。
6. 建立反向链接要谨慎
随着互联网的发展,搜索引擎调整算法的频率越来越快,垃圾页面可以钻营的空间自然也就越来越少。基于这种考虑,那种号称能迅速让网站获得成百上千链接的自动处理方案应该被淘汰,这类链接来自链接养殖场(link farm),而后者是所有搜索引擎打击的对象。
有些网站为了防止浏览者在评论或日志中添加垃圾链接,使用了nofollow属性。赋予链接nofollow属性很简单,只需在链接代码中加入rel=‘nofollow’。 目前主流博客如WordPress和MovableType均自动为其留言中的链接添加nofollow属性,旨在杜绝作弊者试图通过这种方法提高其网站的流行度。这相当于告诉搜索引擎该链接所指向的网页非我所能控制,对其内容不予置评,或者该链接不是对目标网站或网页的“投票”,搜索引擎在计算目标的网站的链接流行度时,不考虑该链接。
但nofollow属性并没有真正解决博客的垃圾问题。究其原因:首先,很多人并不清楚nofollow的含义,仍以为通过评论垃圾可以提高网站的链接流行度。其次,纵使明白这不能提高网站在搜索引擎结果页面(SERP)中的排名,链接是用户到达网站的途径,只要广泛地添加链接,积少成多,也会提高自己网站的访问量。
7. 动态链接的静态化
动态页面的链接是动态产生的,在返回页面内容之前,动态脚本需要一些信息,如cookie data、session id或字符串。动态页面是基于数据库驱动的,通过脚本语言动态产生的页面。动态网站中有模板,内容一般存放于数据库中。要浏览页面时,模板调用数据库中的内容,参数被添加到URL上, 这种复合型URL告诉了模板要装载的具体内容。浏览者在动态网站中通过使用查询字符串发现信息,这种查询字符串被键入表单中或被预先编码在主页上的链接中。
蜘蛛不清楚如何使用查询功能,若蜘蛛用没有查询字符串的不完整向服务器提交,服务器会要求信息完整地址,这是蜘蛛不能理解的,从而可能陷入了一种死循环中。搜索引擎难以处理动态网站,因不能提供产生页面需要的信息,会陷入到动态页面服务器中而不能自拔,蜘蛛和服务器陷入无限循环之中,会导致服务器瘫痪。因此,动态网页内容对大多数搜索引擎蜘蛛是不可见的,大多数蜘蛛反感动态页面,在识别出这种URL后,会敬而远之。不会检索它。因此需要把这些有价值的内容转换成随蜘蛛可见的形态。
这种复合型URLs 是搜索引擎难以检索的,因搜索引擎不知道定义内容的参数。参数越多,越难以被检索到。为此,需要克服这种不完整地址问题。有两种解决方案:
搜索引擎友好的动态页面,修改URLs,参数越少越好,最好把页面静态化,一般采用如下两种方法。
建立静态网关页面,连接网站中的网页。确保链接地址完整,不需要临时产生,即不包含?符号,在需要时,服务器能转换这些静态链接以便蜘蛛不同回答问题就能直接访问动态页面。这种网关页面要有丰富的文本,以免被蜘蛛忽视。这适合于动态页面较少的情形。
对系统做技术维护,使服务器能应对蜘蛛的访问,把“?”用其它符号如“/”代换。这种方法的实施依赖于Web服务器的种类和集成数据库和Web网站的技术:Apache有一个特制的重写模块(mod_rewrite),允许把包含查询字符串的URL转换形成搜索引擎能跟踪的URL。Active Server Pages:大多数搜索引擎能检索.asp页面,若URL中不含问号。XQASP提供的一个产品能自动地用“/”代替URL中的问号。
1.3.5 URL检测工具简介
检测网站URL结构、无效链接等的工具,其地址分别是:www.xxx.cn/soft/XENU.ZIP,http://validator.w3.org/checklink
相似页面检测工具,对比两个页面间的相似度,来判断是否有受到惩罚的危险,其地址是:www.webconfs.com/similar-page-checker.php
蜘蛛程序模拟器,模拟蜘蛛可抓取到的文本及链接,其地址分别是:www.webconfs.com/search-engine-spider-simulator.php,www.spannerworks.com/seotoolkit/spider_viewer.asp
CheckWeb,强大的分析链接工具.可以查看在线和下线的HTML网页,并对链接、错误和网页大小信息作出报告。
Mihov Link Checker,检查网站上多个链接和本地网页.报告链接的状态,如空白网页,错误网页,被禁止访问。可以将链接隐藏在文本文件中,只要点击网页就能自动弹出来。
SiteLinkChecker,检查网站坏掉的链接,使用方便。轻而易举地锁定坏掉的链接和有句法错误的链接,并报告每个链接的状态。
1.3.6 链接流行度检测工具简介
Indexa,显示Google的网页级别,记录Google,Yahoo,MSN,Altavista和AlltheWeb上的返回链接数量和网页数量。
Link Popularity Check,检查网站流行度,查出在五大搜索引擎中竞争对手。
BackLinks Master,查出导入链接,分析链接是否是直接链接和锚文本中的关键字。
www.4c2.cn,综合利率网,查询含链接广度、PR、ALEXA排名。
www.marketleap.com/publinkpop,可同时与多个竞争对手网站进行比较。
www.uptimebot.com,同时检测10个著名搜索引擎的收录情况。
www.seotoolkit.co.uk/link_popularity_checker.asp,检测网站的链接流行度。
www.123promotion.co.uk/directory/index.php,检查网站是否登录分类目录。
1.4 网页优化
Web页面由两部分组成,即和。浏览器一般显示网页中的页面名称(title)、链接地址(URL),和中的正文。
在设计和优化网站时,首先要考虑这些因素,优秀的网站内容要包括:原创内容较多,容易被众多网站引用,引用的过程中一般都会给这个页面加有链接,所以这个页面可以获得较好的评分,排名自然会好;网站内容丰富,丰富的网站内容会让Google收录网站许多内容,网站各个页面之间的链接有利于其提高网站各个页面的在Google中的评分。合理调整页面中关键词的频率,关键词在网页中出现的频率保持在3%-8%比较好。网页文本中的关键词要专门突出:可以用来突出,也可以用醒目的颜色来突出。网页内容的逻辑层次要清新,要用标题标签,其中要包含关键词。网页中导出链接要少。图片要加上alt注释,要合理地加图片说明,但不要在说明中堆积关键词。同时为页面文件减肥。
其次考虑搜索引擎要利用的元数据如关键词、描述元标签等。
1.4.1 合理设计头标签
页面文件的头标签包括
1. Title标签
title标签是最重要的HTML标签,其中的文本内容是浏览器中的醒目提示栏和书签中的题目;title标签中的文本将被用作搜索结果中页面的标题,对搜索引擎至关重要,是搜索引擎决定页面排名的重要因素之一,理应受到重视,
页面
因此,尽量使用与文本内容和关键词匹配的页面title内容,考虑通过搜索引擎查询页面关键术语,并把这些术语以简短描述的方法是融入到title标签中。
titile不超过25汉字,对页面唯一,在title中合理突出1-2个关键词。
2. Meta标签
元标签用于提供有关HTML文档的信息即结构化元数据(元数据是有关数据的信息)。元标签是隐藏标签,用于表达浏览者所不关心的信息,浏览器不显示这类信息,对于页面浏览者是不可见的;但元标签常用于协助搜索引擎正确地分类页面,是搜索引擎可理解和解析的。搜索引擎蜘蛛要利用这类信息去了解要抓取的页面。
元标签有四个属性,即content、http-equiv、name和scheme,其中只有content是必要的属性。元标签总以name/value对形式提供信息。Content提供名值对信息信息,它可以是出现在引号中的合法字符串。Name和http-equiv属性提供名称信息,一些常用名称是:标识页面主题的单词关键词(keywords),它有助于搜索引擎分类网站。对页面的简短描述(Description),应包含关键词,这个标签享有搜索引擎的广泛支持,很值得使用,使用该标签的搜索引擎将在显示链接列表时提供这个标签的内容。用于限制搜索引擎搜索页面的Robots,这个标签得到搜索引擎的全面支持,但只有在不想让搜索引擎检索页面时,才需要它。网页编码和语言注释标签:主要是面向浏览器的,不同语言的编码都不同,所以做外文网站的时候一定要注意,最好用潜在客户使用的操作系统的编码,要不然潜在客户看到的网页将是乱码。其它可选元标签:任何其它元标签被大多数搜索引擎忽视,虽然可能被少数搜索引擎使用,如版权和作者信息等。
元标签曾经是搜索引擎优化的焦点之一。在1990s中后期,搜索引擎依赖于元标签去分类页面,网站管理员随即就明白了元数据的商业价值,即在搜索引擎中的排名会带来网站的高流量。随着搜索引擎流量在网络营销中日益重要,那些熟悉搜索引擎如何处理网站的人(咨询师)便粉墨登场,利用各种技术(无论合法与否)去为其客户改善排名,利用各种方法为网站在搜索引擎上提供较好的排名。一些作弊行为,如元标签中的关键词无限堆砌,企图回避搜索引擎排名算法,因此元标签曾被严重滥用。随着搜索引擎蜘蛛日趋完善,元标签的作用急剧减小,如今元标签业已失去往日风光。
但仍有必要重视元标签,因有些搜索引擎仍然对元标签感兴趣。元标签内容要简短,与正文内容一致。若过分重视元标签以愚弄搜索引擎,就会被揭穿并受到应用的惩罚。元标签不是把网站推送到搜索结果页面前列的“银弹”。它们是工具,有助于提升网站在那些使用元标签的搜索引擎中的排名。利用它们可使网站的更多页面被收录和浏览。
元标签主要面向搜索引擎,关键词和描述尽可能对页面是唯一的,即不能被多个页面共用。
关键词早期被大多数搜索引擎使用;但其作用越来越小,目前对Google已经没有用了,对个别搜索引擎的排名还有一定作用。然而,对解析的关键词的数目有限制,因此,要慎重使用关键词。其设计原则是简明,若用多个关键词,用英文逗号格开,即关键词要用最简单、最明确的内容。
其设计原则是:每个页面要有独特的、与网页内容相符合的、简明的关键词和描述信息。元信息长度要合理,不超过50个汉字;在描述中核心关键词出现4次左右。
Robots允许说明不让搜索引擎检索的页面或跟踪其中的链接。要排除蜘蛛搜索,可在相应页面中加入这种说明性标签。这种标签得到搜索引擎的广泛支持,有些搜索引擎也对robots标签做了扩展。robots是一种事实标准,详见http://www.robotstxt.org/meta.html。
Robots元标签的格式为:。其中,name属性是robots,content的值用逗号隔开,只有某些组合才有意义,其缺省值是"index,follow",即蜘蛛将检索网站所有页面,并将跟随其中的链接。content的合法值是index、noindex、follow或nofollow等。index指Robot可以索引含此标签的网页,Noindex指不要索引含此标签的网页。follow指Robot可以跟踪含此标签的网页里的特定链接,Nofollow指不要跟踪含此标签的网页里的特定链接。Archive指蜘蛛可以存储含此标签的网页的快照,Noarchive指蜘蛛不要存储含此标签的网页的快照。Nosnippet指蜘蛛不要在搜索结果页的列表里显示含此标签的网站的描述语句,并且不要在列表里显示快照链接。Noodp指蜘蛛不要使用开放目录中的标题和说明。
在使用robots时,要考虑两点。蜘蛛可不理会元标签,特别是黑客探测web安全漏洞的恶意蜘蛛、电子邮件地址harvesters。元标签不是阻止搜索引擎检索网站内容的最好方法,不必使用robots标签去帮助页面得到检索,这是多此一举。更可靠和有效的方法是利用蜘蛛访问协议即Robots.txt文件,而不需要逐页添加robots标签。Nofollow指令只适用于本页面上的链接,别与rel="nofollow"链接属性混淆。
3. 几种元标签生成器
BHead,用于建立完整的标题区,包括CSS层叠样式表。生成所有正在流行的meta标签代码,可创建专门的标签;引出文件的关键字和文件的描述;具有编辑彩色样式表格和检查拼写,更换搜索,语法凸嵌等功能。
Metty Meta Tag Maker,可同时创建33个meta标签,让搜索引擎毫不费力地索引到网站。容易使用,无须具备meta标签知识基础。
Search Engine Buddy,无论网页在线还是离线,都能分析其meta标签和网页内容,创建最好的meta标签,根据要求创建相关的网页内容,分析搜索引擎的排名算法。
MetaWizard,简单的基本meta标签创建工具,为网页建立基本的标签。
1.4.2 网页内容
大多数搜索引擎注重页面的文本内容和页面题目,并认为其搜索相关性高于元标签。因此,要保证页面有相关的标题和内容。这将比只适用元标签更能改善排名。
内容很重要,许多搜索引擎开始应用Latent Semantic Indexing技术,即更加看重在内容中相关术语的页面,而不是术语重复出现多次的内容。相关、及时和唯一的内容自然会被链接。网站的内容要丰富、网站原创内容要多、用文本来表现内容,更新要及时。
1. 关键词丰富的文本
内容写作要注重内容质量、更新频率、与关键词的相关性。
搜索引擎关注页面
根据经验,吸引蜘蛛的原则是:一是要提供文本和注重正文。Google喜欢内容,特别是高质量的内容。没有文本的页面很难获得高的排名,这点对主页特别重要。若主页上没有文本,那么蜘蛛可能会立即停止搜索。有规律地更新;实效性的、主题性的文章永远最好。原创的内容最佳,切忌被多次转载的内容;内容独立性,与其他页面至少30%互异。别做任何重复,若重复了关键词,将受到惩罚。二是内容围绕页面关键词展开,与网站管理员题相关。研究关键词,找出好点子,写好新网页,即以一系列关键词为基础的内容。三是分段要合理;并且也是逻辑分割;使用黑体等醒目标识强调重点。四是提高写作技巧,学习适合网上人群的写作方式:多分段,短句子,读起来快的内容,因大部分网站访客不是读,而是浏览。四是蜘蛛有停止词列表,主要涉及成人内容和亵渎性语言。当发现这种关键词时,蜘蛛就会放弃这种网站。若某个页面有这种关键词,可以在robots.txt文件中限制对它的访问。五是若页面中有大量链接,要确保有相关的文本内容伴随。纯链接页面总被蜘蛛忽视,甚至会受到惩罚,而若有描述则可避免这个问题。
2. 权重性标签
总之,SEO友好的网页设计,应该做到:网站的各个页面结构尽量保持简单和一致。网页文件大小适中,以便提高搜索引擎读取时的速度。为网页指定明确单一的内容主题。通过频道导航(特别是首页),并在网页中放置关键字,以及在频道导入、导出链接中,用关键字突出主题。不要轻易使重定向、框架等对搜索引擎不友好页面处理方式。尽量把关键字放到网页文件名,图片名,图片替代文字中。通过页面的title和description突出主题。标题(title)最好控制在40-60个字母以内,并将关键字置于其中以突出主题。把关键字和文章分段标题,重要段落用显现方式突出网页要表达的主题。可以通过关键字在文章标题,正文,显现方式,出现的频率来体现页面的独特性。网站栏目网页内容保持规律的更新,通过评论等形式保持页面内容更新。尽量不要出现大量相同或相似的内容页面,文章正文内容不要过短。
1.4.3 页面框架
为便于一次性更新网站的导航菜单,为浏览者提供统一的导航菜单、站点名称和站标,大多数网站管理员喜爱框架(Frames)。框架本质上是页面内的页面,因破坏了Web赖以存在的一个文档对应一个URL的模式,因此给浏览者和搜索引擎带来了特殊问题。
浏览者不能为基于框架的站点的内部页面做书签(bookmark),当他们点击链接浏览那些基于框架的内部网页时,不能导航到网站的其他页面。当搜索引擎用户点击搜索结果列表中的基于框架的网站的页面链接时,能完全看到内部页面,但没有任何方法去浏览该网站的其它页面,因该内部页面在被浏览器装载时,相应的