手边有一份 2005 Winter TopTen Award Winners的报告,包含了一些关于世界上排名前几位的 VLDB 的信息。VLDB,超大数据库,其实叫做"狂大数据库"倒是也很贴切。
如果不区分操作系统环境,Yahoo! 力拔数据仓库一项的头筹,单个数据库数据大小接近 100T 。采用的是 Oracle 数据库,部署在 Unix 上, 存储是 EMC 的设备。这是 2005年的数据,雅虎现在每日接近 40 亿 PV,这个数据仓库现在应该远超 100T 了吧。 电信巨头 AT&T 的数据仓库屈居亚军。Amazon 的两个数据仓库也不小,数据量多达 24773 GB,是用 Oracle RAC 实现的,部署在 Linux 操作系统上。
到现在为止,都还没有看到互联网站点的身影。
仍然全部是 Oracle 数据库。而且, 四个中的三个都是通过 RAC 来实现的。
从上面的数据可以作如下总结:
1) Linux 上 Oracle 通过 RAC 可以提高扩展能力;
2) 但是,Oracle RAC 的扩展性并非那么好;
如果从峰值处理能力(Peak Workload)的角度上看,Oracle 就不那么风光了。DB2 与 CA 的 CA-Datacom 瓜分了 10个 席位。操作系统平台都是 z/OS。 排在第一的是 UPS 的数据库系统,每个小时处理 1,134,034,718 条 SQL 语句。很强悍。
或许有个的朋友看过我介绍的 eBay 的数据量,可能比较纳闷,为何整个报告中没有 eBay 数据库上榜? Fenng 猜测是 eBay SOA 化之后,单个的数据库就并不大了,这样也避免了风险。
(这份报告的 PDF 下载)