蜂鸟时序数据库-12306撞库数据
对于向下钻取时的指标分析,是通过不同属性的TAG组合,通过指标组合,看哪个指标组合偏差更大,从而缩小范围。
另外,避免通过比较各个维度的异常分数来猜测根本原因,误差偏差较大。 在我们的实际体验中,异常指标的下钻效率要高于异常评分。
容量预测
对于业务场景蜂鸟时序数据库,希望能够准确预测支撑业务的机器和资源需求,减少资源浪费。
容量预测的本质是容量趋势预测。 单机行为具有时序一致性,业务形态本身也具有周期性。 虽然业务在过程中会发生一些变化,但整体的业务形态不会发生变化。 可以预测或观察单台机器的容量,也可以预测系统容量的趋势。 通过容量预测,可以调整单个应用集群和整个链路的容量和限流值,知道整个机房或整个链路的容量上限。 未来会调用容器平台进行资源调度。
容量预测的基本逻辑:通过单机容量预测的行为,在线进行快照对比,调整优化点。
每个应用程序、服务、其关键路径的 TPS 或总 TPS 作为通用模型输入。 为关键路径拍摄快照。 比如下单场景,采集指标快照,进行结构化。 通过快照和预测进行学习和修正,最终得到收敛效率高的结果。
目前的预测区间为T-1,错误率不超过8%。
容量预测的好处:单个应用集群和整条链路的容量调整,限流调整。 同时,根据场景预测,评估单个应用的容量,以及整个机房或整个链路的容量上限,进而调用容器平台的调度能力进行横向和垂直扩张和收缩。 目前近似实时的伸缩还在研发中。 主要问题是平衡在线流量和容量比例,降低稳定性风险。 Tidal能力已经通过粗粒度的调度实现,比如晚上关闭部分应用,把容器资源调度给其他业务,早上五六点拉回来,重启,再执行业务。
CSDI
首脑
第04部分
如何评估 AIOps 收益指标
任何业务的本质都是收入和投入产出比,那么如何评价AIOps的收入衡量是关注的核心。
AIOps成本效益分析视角
CSDI
首脑
第05部分
概括
基础设施上云后,从稳定性的角度来看,SRE更多的是用数据和算法来挖掘和优化点。 本文提到的根因分析和容量预测是基于数据系统的构建。
关于作者
刘岩蜂鸟时序数据库,阿里巴巴高级架构师。 2018年开始负责饿了么SRE工具的开发。 之后在阿里本地生活担任安全生产负责人,负责中国台湾、蜂鸟、外卖、零售、基建的稳定工作。 同时成立了技术风险部,重点关注基础运维、高可用、资金安全、通用风险等。 多年担任双11战队队长。 几年来,他主导了基础运维体系的改造,从0-1构建了阿里巴巴本地生活科技风险体系。 在不同的技术风险领域,运用不同的算法能力,他会有不同的结果,重塑运营能力。
会议/会议/返回/回顾
参与企业:微软、阿里巴巴、小米、腾讯、华为、360、平安集团、渣打银行、招商银行、招商银行、随行随行、易方达、阳光科技、乐融软件、广州银联、穆迪信息、拍拍贷、宇信集团、途纳金融、天威资讯、萨摩耶、招商证券、国信证券、陆金所、广发基金、中国银联、恒天软件、天洋宏业、中书通、电信规划设计院、oppo、步步高、vivo、爱立信、百富电脑、厦门航空、福建联迪、恒大物联网、星网视易、升腾科技、视锐电子、飞利浦、金山软件、金山游戏、Autodesk、顺丰速运、深信服、yy、虎牙资讯、珠海健康云、优视科技(UC)52TT 、21cn、凯米网络、苏州耕云无忧、ADmaster、博思软件、网速科技、珍爱网、金蝶、唯品会、大宇无限、华讯网络、传讯数码、无限极、云玩信息、珠海网银 o、上海变研红、同盾科技、杭州顺网、蓝岭软件、诚意科技、长园深锐、中南民航、远光软件、中国移动、中国电信、中国联通、物理研究所、深圳研究院等。
特别感谢
精华/颜色/推荐/推荐
+
+
+
+
受到推崇的