网易云信是去年网易推出的一款即时通讯云服务产品,因技术故障致所有服务中断半小时以上

摘要即时通讯云方案网易云信新增无限人数的聊天室功能,“云信聊天室”搭建在网易云信基础IM云服务之上,支持但不限于文字、语音、视频的交流方式,帮助开发者快速构建多样化的聊天室。近日,即时通讯云方案网易云信:新增无限人数的语音聊天室功能,满足了开发者更多的应用需求。“云信聊天室”搭建在网易云信基础IM云服务之上,支持但不限于文字、语音、视频的交流方式,帮助开发者快速构建多样化的聊天室。主要应用范围在于社交、兴趣社区、纯语音聊天、游戏娱乐直播等领域。“在兴趣聊天室,偶尔会出现超过10000人的超大型聊天室,我们都可以支持,包括使用、文字、图片、语音、视频、表情等常见交流形式,以及地理位置、通知消息、消息抄送等个性业务,”网易云信聊天室开发者表示,这是因为网易背后拥有强大的支撑技术,相关产品都经历过“海量用户高并发”的考验,拥有成熟的解决方案。同时,聊天室全面支持PC、Web、安卓、IOS等平台。以热门的游戏、娱乐直播为例,通过网易云信,不仅可以搭载视频直播,还可以加入聊天室内容,使直播和文字聊天相结合,丰富交流形式。在聊天室管理方面,用户可以进行创建、解散,实现资料编辑、历史消息(默认10条)等功能,聊天室权限操作包括踢人、禁言、拉黑、设置管理员等。网易云信是去年网易推出的一款即时通讯云服务产品,瞄准创业服务市场,即以PaaS为服务模式,向开发者提供IM
SDK和 OPEN
API,使各类APP能够短时间内接入聊天功能。上线以来,网易云信在功能方面稳扎稳打,其突出的技术优势、良好的稳定性和工程师服务得到市场广泛认可,并获得赛迪网评选的2015年年度“中国最佳云技术应用奖”和“中国IT行业最佳服务商奖”。官方地址是:netease.im

摘要4月22日即时通讯云 LeanCloud
发生了因存储集群故障而致服务瘫痪,从事故原因中可以想够用的出目前LeanCloud这类即时通讯云厂商所面临的各种挑战。前言4月22日即时通讯云
LeanCloud
发生了因存储集群故障而致服务瘫痪,从事故原因中可以想象的出目前LeanCloud这类即时通讯云厂商所面临的各种挑战:当用户量持续增大,所面临的各种因大并发、高服务需求问题,时常导致整体服务品质的下降,这也侧面反映出,要做出可靠的云即时通讯服务,在没有现成方案可用的情况下,各厂商要走的路显然还很长。以下是官方事故通报情况2016
年 4 月 22 日 13:04 开始,LeanCloud
中国节点的后端存储集群出现问题,导致该节点上所有应用都出现了存储 API
访问故障,将近半小时后得到恢复。故障的详细经过通报如下。故障时间13:09-13:28
所有应用的数据存储服务都出现访问异常(持续 19 分钟)13:28-13:40
大部分应用已经恢复,但还有 20% 的应用依然无法正常访问(持续 12
分钟)影响范围中国节点上所有应用的存储服务都受到影响,同时依赖于数据存储的实时通信、云引擎服务也可能出现内部错误。美国节点不受影响,所有服务均工作正常。事故经过13:04
我们监控系统陆续发出报警,后端存储集群访问超时慢慢增多,工程师介入调查,并向用户发出了短信和邮件通知。13:10
整个集群的存储 API Server
不再响应外部请求。调查后确认是后端存储系统在做大量耗时的关系数据写入操作,导致系统失去响应。于是我们马上重启集群,并分批开放流量。13:28
部分存储分片(shard)得到恢复,80%
的应用访问恢复正常;发送第二次故障进度通知。13:40
所有应用恢复正常;发送故障解决通知。后续改进措施这一次故障的根本原因在于
AVRelation
模型的底层实现存在缺陷,某些特殊条件下会导致后端存储系统因忙于处理而失去响应。我们已完成替代方案的开发,正在测试中,下周会发布更合理的解决方案。(4
月 27
日周三完成)改进并发限制的算法,以便在异常条件下更好地限制故障的影响范围。(4
月 25
日周一完成)排查所有危险/耗时操作,在上层进行写入控制,避免对后端存储系统造成太大影响。(4
月 25 日周一完成)LeanCloud官网访问以下地址即可:leancloud.cn

摘要2016 月 2 月 19 下午 3 点左右,即时通讯云 LeanCloud
因技术故障致所有服务中断半小时以上。2016 月 2 月 19 下午 3
点左右,即时通讯云 LeanCloud
因技术故障致所有服务中断半小时以上。以下是LeanCloud官方关于此次故障的说明:故障时间15:17
至 15:50(持续约 33
分钟)影响范围除了单纯的静态网站托管服务未受影响之外,其他所有服务,包括结构化数据存储、文件存储、云引擎、聊天、短信、推送、统计等功能都暂时无法使用。故障处理时间线15:17:我们在部署新服务时无意触发了一项误操作,但并未意识到由此会导致上述服务停止。15:17:我们在同一时间接到系统监控报警,经检查发现
LeanCloud 网站无法登录,API
服务日志也已中断,同时有部分用户也向我们反馈,确认了服务已不可用。15:19:我们随即启动回滚操作,所有服务陆续开始重启。15:25:API
等服务逐步启动,但是流量还没对外开放。15:30:开放 API 流量,
数据存储服务以及依赖于它的云引擎服务开始逐步恢复。继而聊天、统计、推送服务也逐步恢复。15:50:所有服务恢复正常。后续改进措施贯彻执行故障通报流程:由于本次故障事发突然,影响面广,我们一直专注在恢复服务上,却疏忽了与用户及时沟通问题和进展这一已有流程。我们深知在故障期间这一流程对用户来说至关重要,所以我们今后会切实执行这一流程,明确故障通报的负责人和替补人、通报时机、通报内容、通报渠道(如邮件或短信)等。对部署服务进行权限和功能上的细分:限制其操作的影响范围,杜绝一条指令导致所有服务停止运转的情况。完善后台管理系统:确保管理系统的所有操作都增加了确认环节,确保操作者知道操作的后果,并手动进行确认。这次由于我们的工作失误而引发了大范围的服务中断,我们在此向大家深切地道歉。同时为了表达我们的歉意,我们会免掉所有应用在
2 月 19
日除短信服务之外产生的全部费用。我们将在后续几日进行退费操作,退费完成时,您将收到账户余额变动的邮件通知,请耐心等待。具体金额届时也可以通过控制台
> 交易历史 > 充值历史查询。

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

*
*
Website