Homepage
About Me
Leave Words
Table of ContentsChat Room
Photo Album
Web LiveMusic Box

Google的数据处理量

Google的Jeff DeanSanjay Ghemawat近日披露,Google庞大的分布式计算集群现在平均每天都要处理20PB(20000TB)以上的数据,三大核心技术之一的MapReduce每天工作量超过10万个。

在2007年9月,MapReduce的工作量多达221.7万个,平均完成时间395秒,平均每个工作使用394台机器,一个月下来就要动用 11081台服务器;当月每天Map输入数据403152TB,Map输出数据34774TB,Reduce输出数据14018TB,最终输出20756TB,也就是将近21PB。

Google还同时透露了2004年8月和2006年3月的MapReduce状态统计,对比之下更能看出Google的飞跃发展,单就处理数据量而言就是三年前的37倍。
最后再看看Google集群节点的标准配置:双路Intel Xeon 2GHz超线程处理器、4GB内存、两块160GB IDE硬盘、千兆以太网。这种机器在企鹅计算或戴尔那里价值大约2400美元,在Verio等处的主机托管费用一个月要900美元左右。一个MapReduce工作的硬件集群运行成本高达100万美元,而且这还不包括带宽费用、数据中心开销、员工工资等。

(转自驱动之家

0 评论:

相关文章