此网站为郑州seo技术博客网站,欢迎加好友互相探讨!
当前位置:郑州SEO博客 > SEO技巧 > 正文

垂直搜索引擎的相关技术

07-28 SEO技巧

      如今企业在做搜索引擎优化已经不再是纯粹的百度、360等普通搜索引擎了,因为他们知道虽然普通搜索引擎用户流量非常大,但是也正因此让人群混杂不堪,所以他们在定位用户时无法得到精确定位,因此就出现了垂直搜索引擎,这里就给大家分析一下 垂直搜索引擎的相关技术:

垂直搜索引擎

    1、页面解析与页面显示排序
    网页地址都是用URL(UniformResource Locator统一资源定位器)来表示,获取网页信息,必须找到URL,读取该URL页面的HTML、特定标签,高级的搜索引擎还能对JavaScript语句进行解析。这是因为许多网站直接用JavaScript构建出来,而且随着Ajax技术的流行,很多信息包含在JavaScript标签里,为了提高采集信息的准确率,提高搜索引擎的竞争力,搜索引擎必须提供JavaScript解析器。
      页面排序是针对根据用户关键字,查询到的网页列表,采用何种策略将网页列表显示在用户面前,使用户最想知道的结果显示在最前面页数发生的概率最大。主要的算法有:PageRank算法、HITS算法。在排序上,有些搜索引擎(如百度),则加入收费这一方式,使排序成为搜索引擎的一大盈利模式。
       2、数据存储及分布式技术
      尽管垂直搜索引擎保存的网页数量相对通用垂直搜索引擎小很多,但是,作为一个优秀的商业垂直搜索引擎,必须在提高性能的同时减低成本,提升竞争力。可以采用数据压缩的技术对数据进行压缩存储,采用数据库技术,如索引等提高数据读取速度,可以采用分布式技术,通过多台服务器相互合作,以提高数据采集和更新速度。
       3、网络蜘蛛的爬行策略
      网络蜘蛛(Robot或Spider)的搜索策略是指当网络蜘蛛搜索到一个文档之后,下一步应该转移到哪一个文档的方法问题。目前比较常见的搜索策略有以下几种策略:(1)IP地址搜索策略。(2)深度优先搜索策略。(3)广度优先搜索策略。(4)深度-广度结合搜索策略。
       4、中文分词技术
在Web应用中,文本处理的速度往往是性能的关键,快速分词具有很大的现实意义。Web文本分词是Web信息处理的基础,如信息检索、摘要形成、网页过滤等都需要对Web文本进行分词处理。Web文本的正文主要是由英文和中文构成,由于英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中词与词之间是没有空格的,因而必须采用某种技术将其分开。
      分词的方法很多,基本上分为两类:第一类是基于字符串的匹配:将汉字串与一个机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。主要有正向最大匹配法、逆向最大匹配法、最少切分等方法。第二类是基于统计的方法:从概率角度出发,单字出现在词汇中联合概率是比较大的,因此当相邻的字越常出现,则越有可能是一个词。
      不管是针对企业还是用户,垂直搜索引擎都是有很大的市场,因为不仅企业觉得目标用户得不到精确定位,就连用户在搜索答案时,一连串的广告出现,也让用户十分烦感,所以垂直搜索引擎日后有可能是主流搜索引擎。


版权保护: 本文由 郑州SEO博客 原创,转载请保留链接: http://www.zglblog.cn/seojq/556.html