QQ空间技术架构之深刻揭密

QQ空间作为腾讯海量互联 服务产品,经过近七年的发展,实现了从十万级到亿级同时在线的飞跃。在这个过程中,QQ空间团队遇到了哪些技术挑战点前后台架构随着业务规模的变化又进行了怎样的演进与变迁背后有过怎样的心酸和快乐……

4.26日晚间,腾讯大讲堂·深圳首站《QQ空间技术架构之峥嵘岁月》活动在腾讯总部腾讯大厦多功能厅举办,腾讯Web前端研发领域专家、腾讯最早的专职Web开发团队核心成员、Qzone核心架构研发总监徐晓在两小时的演讲中揭开了QQ空间技术架构背后的秘密。

正式分享之前,徐晓介绍了QQ空间目前的海量服务数据规模(图1):

1.拥有5.5亿的活跃用户

2.过万台的设备

3.数千万级别的同时在线

4.数十亿级别的全站PV

5.P级的UGC存储量

6.每天千亿级别的服务请求

图2——Qzone2.0典型载入逻辑

但同时,空间第一版的独立客户端也带来了各种问题和烦恼:

第一:非常不利于定位问题。

一旦页面元素填写失败,定位问题将是一件麻烦的事情。因为它不是Web页面,所以只能用其他抓包软件,比如Ethereal(Wireshark的前身)来抓取 络包做分析。但那个时候 络抓包工具的能力还比较弱,没有高亮和HTML语法检测等功能,所以整体环境比较受限。

第二:服务接入层压力大。

由于不仅要接受用户的请求,还要向后访问不同的数据。当后端某一个接口超时严重的情况下,很多用户的请求都会被挂起。这样就会消耗更多的连接资源,对Web服务器CPU的消耗很大。

第三:服务集群没有发挥出应有的服务能力

当时共用30-40台服务器,也只能支持50万左右的用户。无奈之下,团队想了一个没办法的办法:有意限制超过五十万用户,提出了一个排队等待机制,学习海底捞模式,当在线人数达到50w的时候,QQ空间会给用户展示一个Flash小游戏,让用户在等待的时候玩小游戏。

针对当时存在的种种问题,团队做了以下改进来解决:

第一:采用Web RIA。

当时大量使用了Ajax技术来减轻服务器的负载。其中一个极端的例子是:整个空间首页都是采用JS绘制,这样能够将用户访问的CGI足够轻量化。尽量简化了CGI逻辑,让CGI程序运行更加强壮、效率更高。同时,当服务异常时,还可以通过JS脚本绘制一个错误信息给予用户提示。而且,采用JS开发效率更高,调试更方便。 Web RIA化后,降低了服务器CPU消耗的40%,节约了DC的输出带宽约30%(部分JS脚本都可以被浏览器Cache住)。

第二:采用动静分离策略。

静态资源都放在自研的Web服务器qhttpd上,它具备当时ApacheSelect模型的两个数量级以上的接入能力。

第三:采用自研的Web Server:Qzhttp,主要用于动态分离的动态服务的需要。

由于Qzhttp是腾讯自研的、轻量的、更适合业务自己逻辑的Web Server,从而保证了它的高性能,它的接入能力比Apache (非FastCGI模式)提高了3倍。

石器时代做的最大的优化:

当用户申请QQ空间多个服务时,每个服务都有独立的存储和处理逻辑。只有当所有的服务处理完成,才会由QQ空间框架服务器返回给用户。这样对于同时依赖日志、相册、音乐、留言的服务就会产生两大问题:

1.短板效应一损俱损;

2.具体业务容量无法差异化。

针对这两个问题,做了首页载入性能优化及首页内容静态化系统两方面的优化:

研究用户访问模型。拉取展现与UGC内容的变更比例是7:1。用户之间互访频繁,看他人与看自己的比例是5:1.。通过以上数据,可以看出用户的UGC更新很少,但是用户之间互相访问很频繁。根据用户的这种访问模型,空间团队研发了一套静态化系统(图3)。这套系统会将用户首页的内容全部Cache,然后根据用户的访问,以及用户自己UGC内容的更改,采用一定策略更新静态化系统的Cache数据。 通过增加首页内容静态化系统,首页展现速度从5s提升到3s,用户也不用再玩小游戏进行等待。同时在设备没有扩容的前提下,同时在线用户访问数突破100w。

图4——用户容忍度曲线

一般页面在1s内打开,用户会感觉体验非常流畅。所以我们通过以下策略来保证服务质量:

1.区分关键路径,对关键路径的服务质量我们要求4个9以上,非关键路径的服务失败之后做有损体验;

2.采用动态超时时间控制算法,保证整个程序在可控的时间内做出响应;

3.多级容错机制,从后端服务到CGI,到前台JS脚本都对错误做了容错处理;

4.采用柔性可用策略,失败接口采用默认数据。

为了保证版本的服务质量,空间采用了灰度发布策略。新特性可能按照用户尾 发布,每次新特性只对一小部分人可见。一段时间内的用户反馈后,不断修复和改进问题,再逐步扩大用户群对新特性的可见性,最后新特性才对全量用户可见。同时,也通过控制JS版本 来达到了灰度发布的目的。

通过这些优化,QQ空间成功踏入千万级在线的阵营,QQ空间5.0正式上线。其中主要变化:后端服务进行了重构,前端页面也进行了优化。

现代战争时代–数千万在线向亿级在线

经过反复的改进和优化,QQ空间服务质量大幅提高,但是,新的问题还是随之而来:

不满足于发日志、传照片的用户,想要玩游戏、使用某些web工具。同时,公司其它团队要在QQ空间上开发应用,但QQ空间的应用配置都写死在QQ空间平台逻辑里面。为配合其他团队上线,发版本需要一周,工作不可并行,非常耗时,受到了很大挑战。针对这种情况,我们采取了两大措施:平台和应用架构分离(如图5)、简单配置后上线(如图6)。

图6——简单配置后上线

如果某天深圳的IDC不可用了怎么办p>

为了解决这个问题,空间团队做了全国IDC的异地部署,采用“一点写,多点读”模式的架构模型,将服务部署到深圳、上海、天津和西安。深圳是一个写入点,通过QQ空间自己的一套同步系统同步到全国各个IDC(如图7)。同时QQ空间提供了全方位的立体监控,7*24小时对服务做监控。

接下来是半个小时的Q&A环节,同学们踊跃提问,徐晓做出了详细专业的解答。最后,徐晓和大家分享了“腾讯《海量服务之道》系列的优质课程和秉承的原则”:

QQ空间技术架构之深刻揭密

Qzone是全球第二大SNS 区,仅次于Facebook。徐晓说:“海量服务的价值观和用户对我们的厚爱造就了现在的QQ空间。我们会持续的发展,攻克各种难题,不断前进。”

4月26日21:00,两个小时的QQ空间技术架构分享圆满结束!

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2015年11月16日
下一篇 2015年11月16日

相关推荐