您现在的位置是:首页 > 互联网 > 正文

Google在8月10日推出并正在测试的新型Caffeine搜索引擎的后端

发布时间:2022-05-26 04:40:01来源:

导读 Google不仅在网络搜索和在线消费者工具方面领先于时代。出于绝对必要,在设计主要基于现成服务器,存储阵列和网络设备构建的大规模存储系统

Google不仅在网络搜索和在线消费者工具方面领先于时代。出于绝对必要,在设计主要基于现成服务器,存储阵列和网络设备构建的大规模存储系统方面,它也走在了曲线的前面。随着全球最大的互联网搜索公司不断以惊人的速度增长,它现在正在开发其十年内第二个定制设计的数据存储文件系统。

这种新的存储系统是Google在8月10日推出并正在测试的新型Caffeine搜索引擎的后端,它将包含更多的诊断和历史数据以及自动软件,因此该系统可以为自己提供更多的思考能力,并在人类问世之前解决问题实际需要干预。

谁能在10年前知道,当它成为Yahoo市场领先的搜索引擎的新手时,Google便会成长为每天有数亿用户依赖的Internet组织的重要组成部分?

在Rackable于1999年向Google出售其第一批10,000台服务器并以服务器和阵列的收藏狂潮(可能总共有数十万个盒子)成立该公司之前,Google工程师几乎已经开始制造自己的服务器和存储阵列。

“在1999年互联网泡沫最严重的时候,每个人都购买了不错的Sun机器,我们购买的是裸露的主板,将它们放在软木板上,然后在上面放置硬盘。这不是一个可靠的计算平台,”Google的首席软件存储工程师SeanQuinlan在最近的存储会议上笑了。“但这就是Google构建于其之上的东西。”

对于任何知识渊博的存储工程师来说,这种基本的文件系统都存在过热的主要问题,并伴随着大量的网络和PDU故障,这不足为奇。

Quinlan说:“有时,500至1,000台服务器将从系统中消失,并且需要数小时才能恢复。”“而这些只是我们所期望的问题。那么总有您所没有想到的那些问题。”

最终,Google工程师能够获得他们自己的群集存储文件系统,即令人称奇的GoogleFileSystem(GFS),并以不错的性能运行,以连接所有这些快速定制的服务器和阵列。它由Quinlan所谓的“熟悉的界面,尽管不是Posix所特有。我们倾向于偷工减料,在Google上做自己的事”。

Quinlan说,Google所做的只是简单地将一个充满机器的数据中心和一个文件系统作为所有服务器上的应用程序分层,以实现打开/关闭/读取/写入,而无需真正关心数据在机器中的位置。

但是有一个大问题。GFS缺少一些非常基本的功能:如果主服务器出现故障,则会自动进行故障转移。管理员必须手动还原母版,而Google有时会长达一个小时的时间漆黑。尽管后来添加了故障转移,但当故障转移启动时,它会使用户感到烦恼,因为故障间隔通常只有几分钟的时间。昆兰说现在下降到大约10秒钟。

最终,该公司的成长及其随后在2004年进行的IPO刺激了更大的增长,因此设计并构建了对文件系统的修改。这就是BigTable(于2005-06年开发),它是一种分布式的类似数据库的文件系统,它在GFS之上构建,具有自己的“熟悉的”界面。昆兰表示这不是MicrosoftSQL。

这是运行面向用户的应用程序的系统的一部分。Quinlan说,每个系统都有数百个实例(称为单元),并且每个单元都可扩展为数千个服务器和PB级数据。

哎呀,那是很多要管理的存储空间。

其中大部分是Rackable的Eco-Logical存储服务器,这些服务器群集在Linux上运行,以产生每个机柜高达273TB的存储容量。当然,Google现在使用各种各样的存储供应商,因为几乎没有一家供应商可以提供搜索怪物每年所需的大量存储盒。

Rackable产品管理高级总监GeoffreyNoer告诉eWEEK,Eco-Logical存储阵列具有高效,低功耗和智能设计的功能,旨在提高每瓦特的性价比,即使在非常复杂的计算环境中也是如此。

标签:

上一篇
下一篇