此网站为郑州seo技术博客网站,欢迎加好友互相探讨!
当前位置:郑州SEO博客 > SEO技巧 > 正文

搜索引擎的爬虫技术

07-27 SEO技巧

      相信做网络营销的对蜘蛛都有一定了解,蜘蛛的另一个名字是爬虫,这蜘蛛要做的事情就是将互联网的信息抓取下来,并存储在自己专门的库中,只要入了这个库,日后有人在 搜索引擎上搜索,就得将定位好的信息展现给大家。

搜索引擎

      搜索引擎爬虫 (又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

      但关于蜘蛛的话题,并不只基于链接抓取这么简单,延伸来说

      第一,网站拥有者可以选择是否允许蜘蛛抓取,有一个robots.txt的文件是来控制这个的
      一个经典案例是 https://www.taobao.com/robots.txt你会看到,淘宝至今仍有关键目录不对百度蜘蛛开放,但对google开放。
      另一个经典案例是 你看出什么了?你可能什么都没看出来,我提醒一句,百度实质上全面禁止了360的蜘蛛抓取。
      但这个协议只是约定俗成,实际上并没有强制约束力,所以,你们猜猜,360遵守了百度的蜘蛛抓取禁止么?
      第二,最早抓取是基于网站彼此的链接为入口,但实际上,并不能肯定的说,有可能存在其他抓取入口,比如说,客户端插件或浏览器, 免费网站统计系统的嵌入式代码。
       会不会成为蜘蛛抓取的入口,我只能说,有这个可能。
       所以我跟很多创业者说,中国做网站,放百度统计,海外做网站,放google analytics,是否会增加搜索引擎对你网站的收录?我只能说猜测,有这个可能。
      第三,无法被抓取的信息
       有些网站的内容链接,用一些javascript特殊效果完成,比如浮动的菜单等等,这种连接,有可能搜索引擎的蜘蛛程序不识别,当然,我只是说有可能,现在搜索引擎比以前聪明,十多年前很多特效链接是不识别的,现在会好一些。
       需要登录,需要注册才能访问的页面,蜘蛛是无法进入的,也就是无法收录。
       有些网站会给搜索特殊页面,就是蜘蛛来能看到内容(蜘蛛访问会有特殊的客户端标记,服务端识别和处理并不复杂),人来了要登录才能看,但这样做其实是违反了收录协议(需要人和蜘蛛看到的同样的内容,这是绝大部分搜索引擎的收录协议),有可能遭到搜索引擎处罚。
       所以一个社区要想通过搜索引擎带来免费用户,必须让访客能看到内容,哪怕是部分内容。
       带很多复杂参数的内容链接url,有可能被蜘蛛当作重复页面,拒绝收录。
       很多动态页面是一个脚本程序带参数体现的,但蜘蛛发现同一个脚本有大量参数的网页,有时候会给该网页的价值评估带来困扰,蜘蛛可能会认为这个网页是重复页面,而拒绝收录。还是那句话,随着技术的发展,蜘蛛对动态脚本的参数识别度有了很大进步,现在基本上可以不用考虑这个问题。

      但这个催生了一个技术,叫做伪静态化,通过对web服务端做配置,让用户访问的页面,url格式看上去是一个静态页,其实后面是一个正则匹配,实际执行的是一个动态脚本。

      很多社区论坛为了追求免费搜索来路,做了伪静态化处理,在十多年前,几乎是草根站长必备技能之一。

       关于爬虫技术也就给大家分享到这里,不过还需要给大家说明的就是,即使给网站加了外链,不代表蜘蛛就一定会过来抓取,有的时候蜘蛛即使抓取了,也一定会全部收录,因为它还是会对它抓取的内容进行解析,如果符合条件才能入库。

版权保护: 本文由 郑州SEO博客 原创,转载请保留链接: http://www.zglblog.cn/seojq/544.html