第十九章 图解(2 / 2)

超级U盘 纸火花 1787 字 16天前

相对于已经获得数十万用户的蜜蜂输入法,蜜蜂安全就比较惨了,现在才三千多的下载,更加来源分析,很多人都是从蜜蜂输入法网站页面下方的友情链接找到的蜜蜂安全网站,然后其中一小部分下载了蜜蜂安全0。9公测版。

对此情况马竞倒是完全理解,既然蜜蜂输入法发展的好,优先发展输入法也是不错的。尽管蜜蜂输入法并没有在三十万用户那里找到那个人,马竞苦苦追寻的那个肇事司机。

服务器版的蜜蜂发布器改进了整站下载机制,对于有价值文本文件的搜寻效率大大提高,不再需要一股脑儿下载所有文本文件了。其行为也更加像是搜索引擎的网络蜘蛛程序。

搜索引擎借助网络蜘蛛程序自动下载网络上的各种网页内容,并为其建立索引和排序。用户输入关键字进行检索时,搜索引擎就从自己服务器的索引中搜索结果。所以没有任何一家搜索引擎可以真正搜索全网,它们实际上只是搜索自家网络蜘蛛“爬”过的内容,天然具有一定的滞后和不完整。所以越是大公司的搜索引擎越是好用,因为它们的索引数据库更加全面。

所以作为全球搜索引擎巨头,谷歌也拥有全世界最多的服务器,超过45万台,为全球超过80亿网页建立了索引(2005年),早在2004年,谷歌保存的索引数据就已经超过了5pb(1pb=1024tb,1tb=1024gb)。

有意思的是,谷歌45万台服务器中的大多数都是使用diy配件组装起来的pc(个人电脑)级别的廉价服务器。没有使用性能更稳定,价格更高昂的服务器专用主板和硬盘,而是大量使用个人电脑配件,因此被人戏称是全球diy电脑最大消费者,也是民间用电大户。

当然普通个人电脑配件的稳定性自然没有更加昂贵的服务器配件效果好,因此谷歌使用大量备份镜像,系统会根据各台服务器的负载情况自动分配任务,保证每台可用服务器的负载都在安全范围内,并且及时排除死机出错设备的影响。

谷歌自己设计了gfs/mapreduce/bigtable/这三个架构在linux之上的平台,将其45万台廉价服务器巧妙的组织起来,构成了这个星球上最强力的超级计算机集群之一。

gfs谷歌文件系统将数十上百亿网页的索引文件集中存放,形成一个个64mb的文件块,通过分级管理,大大简化了海量文件的搜索管理难度。

mapreduce是google开发的c++编程工具,用于大规模数据集的并行运算。它会安排多个计算机同时计算一个任务,一旦一台计算机有了结果,其它计算机就停止该任务,而进入下一任务。因为同时用多台计算机进行一个工作,个别计算机偶尔的宕机出错也就不会影响整体任务的执行了。

至于bigtable,这是一个用来处理大数据量的系统,适合处理半结构化的数据。

不过谷歌的服务器集群虽然强力,却没有报名参加全球超级计算机top500排名。

每年6月和11月,top500排行榜就会更新一次,目前最新的数据还是去年11月的排名。马竞也曾经去这家国外网站上去瞻仰过这些全世界最快的电脑。