云智慧刘洪涛:与其说AIOps是产品,不如说这是一种理念和策略

  • 时间:
  • 浏览:3

   “那些年太久人儿有的是谈数字化转型,但太久人儿关注的核心焦点在建设上。为什么会么会会 理解这句话?比如一家传统企业要数字化转型,会引进太久数字化系统、手段,之类 上云,利用大数据、IOT驱动业务转型升级。

      但企业实现数字化后,会拥有上百个系统,很容易出现缓慢、崩溃那些的问題,面临太久挑战。其次,企业在运维管理方面养了好几十人的运维团队,工作量很大,但管理模式过于传统,速率很低。太久,这日后企业才始于英文英语 用人工智能的手段来变革运维领域,避免企业各种系统运行那些的问題。

      云健康智慧总裁刘洪涛

      不过,目前,大多数企业客户还属于上云,上系统的阶段,还没考虑到系统维护、运维的阶段。这也是为那些企业IT领域,IT运维发展滞后的原因分析分析。”云健康智慧总裁刘洪涛说道。

      云健康智慧成立于 1009 年,是一家全栈智能运维避免方案服务企业。今年 6 月,云健康智慧完成了由华山资本领投,红杉资本中国基金、水木投资和浙民投/浙江丝路基金跟投的 2100 万美元 D 轮投资。

      数字化时代,传统IT运维管理的机遇与挑战

      目前,我国IT服务发展原因分析分析进入到相对稳定的增长阶段,有着极为可观的市场前景。据相关数据统计, 2017 年中国IT服务市场规模为10077. 7 亿元,同比增长16.2%,预计未来四年将保持13.8%年复合增长率,到 2021 年整体市场规模将突破万亿大关。

      与此同去,太久的高科技企业加入到数字化转型大军中,而IT服务市场的竞争格局也居于着变化,优质IT服务企业始于英文英语 进入大众视野。

      然而,在移动化、大数据、云计算、人工智能等新技术的推动下,企业的 IT技术架构悄然变迁,从传统“IOE架构”走向“互联网架构”。互联网架构所涉及的网元数、技术栈、服务数等元素成倍剧增,使得运维压力越来越大。

      刘洪涛告诉i黑马&数字观察,企业一方面享受着数字技术带来的创新成果,一方面却又有意无意的忽略了IT自身的潜在风险,必须在IT出现那些的问題的第一时间发现,并作出有效应对。

      首先,从C/S架构到B/S架构,再到移动化的APP和小任务管理器,打上去云计算、物联网、边缘计算等技术的应用,企业IT架构越来越庞大,运维工作变得越来越简化。

      “老是以来,IT部门的职责局限于维护系统的稳定运行,鲜少与业务运行指标挂钩,当业务出现波动后再从海量日志、监控数据中排查原因分析分析,往往原因分析分析造成难以弥补的损失。”

      其次,庞大的数据量也是运维工作面临的巨大挑战。太久大型企业的服务器数量就达到上万台,每时每刻产生海量的数据,那些数据里还藏着大量关键信息,比如某系统的日志数据不正常,原因分析分析造成未来数小时整个业务流程的缓慢,甚至中断。

      第三,过去受限于技术和人力等方面原因分析分析,IT系统一旦出现故障,须要手工排查那些的问題,速率非常差。

      “科技进步推动IT从标准化、自动化向数字化、智能化转变。越来越高速发展、竞争激烈的经济环境中,企业须要重新审视IT与业务的关系,或者 就会被行业领先者和互联网创新企业所淘汰。

      与此同去,IT运维的角色正在居于根本性转变,从默默无闻的支撑者变成业务运行不可或缺的赋能者。而智能运维(AIOps)作为AI、大数据技术与IT运维融合的产物,也成为传统企业数字化转型的必然选用。”

      智能运维是理念和策略,数据是基础

     2016 年,Gartner首次提出智能运维(以下简称AIOps)概念。

      在Gartner的《Market Guide for AIOps Platforms》报告中对AIOps做出了定义:AIOps平台是结合大数据、人工智能(AI)或机器学习功能的软件系统,用以增强和要素取代广泛应用的现有IT运维流程和事务,包括可用性和性能监控、事件关联和分析,IT服务管理以及运维自动化。

      总的来说,与传统IT运维相比,智能运维具算不算可比喻的优势。过去受限于技术和人力等方面原因分析分析,IT系统一旦出现故障,便须要大量资源手工排查那些的问題,速率非常差。

      智能运维不但有效减少告警的误报率和错报率,通过交易链自动追踪和故障根因分析,帮助运维第一时间发现那些的问題根源,并把故障的排查和修复时间缩短到数个小时。

      举个例子,一家大型企业原因分析分析有数百套IT系统,过去,出现故障后,原因分析分析依靠人力逐一排查,大概须要一周的时间。而使用智能运维平台,不但有效减少告警的误报率和错报率,通过交易链自动追踪和故障根因分析,都都还都可不可以把故障的排查和修复时间缩短到数个小时。

      在刘洪涛看来,智能运维并有的是另三个白 全新的理念,可是我IT运营分析/运维管理(ITOA/ITOM)体系与大数据和人工智能技术结合的产物。

      AIOps智能运维平台以ITOM/ITOA系统所挂接的运维大数据为基础,利用人工智能和机器学习算法对运维数据进行深入分析,富含IT监控,应用性能管理、外网监控、日志分析,系统安全等方面。

      前几年太久人儿对AIOps争论非常大,有的是讲此人 对AIOps的定义与理解,以及接下来AIOps发展方向。当时对其争论的方向有这几个:第一类,AIOps是自动化运维,可是我太久人儿要把Ops消灭掉,通过自动化运维妙招 ,用机器去取代人。第二类,利用智能化的手段,替代高重复性的工作,全程自动化、智能化操作。

      第三类是太久人儿理解的AIOps,AIOps的核心在于企业避免的有的是运维的那些的问題,可是我咋样提高运维速率,避免咋样支持业务的那些的问題。

      “对于AIOps,太久人儿的观点是,第一,与其说AIOps是产品,不如说这是你这俩 理念和策略。通过以数据为基础,场景为导向,算法为支撑的AIOps平台,为企业现有运维管理工具和管理体系赋予统一数据管控能力和智能化数据分析能力,全面提升运维管理速率。

      第二,现阶段AIOps的目标有的是NoOps,可是我BetterOps,通过更高效的运维帮助企业快速洞察人力难以企及的故障和那些的问題,准确预测风险,化被动运维为主动运维。

      还都还都可不可以越来越理解,企业IT运维服务商,要帮助企业客户把运维那些的问題消灭在内部人员,让使用者还越来越发现那些的问題日后,运维系统原因分析分析把那些的问題避免掉了,感受必须运维的居于,做到无感知的运维。就像太久人儿在使用微信一样,太久人儿回会感觉微信肩头另三个白 多运维团队居于,嘴笨 它偶尔会出故障,但极少,太久人儿的运维的工作做得非常多,都还都可不可以实现这点。

      第三,AIOps的基础是那些?太久人儿认为是数据。“原因分析分析AIOps须要挂接企业内部人员系统、内部人员系统、第三方的各种数据,汇集到同去,通过AI的妙招 进行分析和避免,帮助企业运维人员用正确的运维动作和管理妙招 ,提升整体的运维速率。”

      总的来说,把日常的IT管理工作移交给拥有机器学习和自动化运维能力的智能运维平台,大大降低企业管理的时间成本和人力、资金投入。

      而运维管理人员也还都还都可不可以从筛查海量告警信息、执行重复性巡检任务、人工判断故障、手动避免那些的问題的低效工作中释放出来,专注于构建更加高效、高扩展的IT系统,支持企业的数字化业务发展,这也可是我业界所倡导的“IT从运维到运营”之路。

      AIOps智能运维平台还能有效预测潜在的IT故障,并在回会人为干预的状态下提前避免掉那些那些的问題,而应用系统故障率的降低,将有效提高云计算资源的使用速率。这得益于机器学习和高度学习算法在IT监控和应用性能管理系统中的持续积累,不断记录IT运维人员在不同场景下使用故障排除或修复基本那些的问題的自动化工具的操作。

      刘洪涛认为,企业采用AIOps的能力不仅取决于IT监控系统的数据规模和自动化系统的可用性,还取决于人员和流程的一致性。

      服务商还都还都可不可以在很短时间内把AIOps智能运维平台部署到企业,或者 任何管理转型有的是的是安装一套系统越来越简单,须要根据业务特点对人员和流程进行调整,而这往往须要更多的时间。

      越来越,另三个白 完整篇 的AIOps智能运维平台具备那些要素呢?

      刘洪涛指出,首先,你这俩 平台要具备完整篇 的数据挂接和数据避免能力,还都还都可不可以挂接企业的多维度数据,或者 聚合到同去,这是基础。

      其次,在具有海量数据基础之上,平台要具备AI能力,你这俩 能力有的是随便另三个白 算法就能避免的,是针对运维领域的算法能力。

      第三,可是我对客户的业务要有充分和高度的理解。“太久人儿知道,不同的行业,不同的公司,业务属性有的是同,服务商须要妙招 客户的具体业务和应用场景,提供最佳实践的避免方案,而有的是另三个白 标准化的产品。

      基于此,太久人儿要了解不同行业的特性,不同企业客户的业务,对其业务要有高度的理解,进而针对太久人儿的需求,提供个性化避免方案。

      总的来说,太久人儿的目标可是我,一方面,要追求避免方案的标准化,要把太久需求做到模块化,方便客户调用。此人 面,对客户的业务要有深刻的理解,针对不同的客户,提供不同的模块产品组合,满足其业务需求。”

      基于对客户的理解,从单一产品到避免方案延展

      i黑马&数字观察了解到, 1009 年的日后,太久中小互联网企业的监控能力有限,Zabbix、Nagios等绝大要素监控工具提供的有的是内网监控,必须监测内部人员服务器的运行状态,当外网出现那些的问題或监测服务器宕机了,就无法收到任何告警信息,往往要等愤怒的用户打来投诉电话,运维工程师才知道网站或服务又不可用了。

      云健康智慧看准时机,面向中小型互联网用户推出主动式拨测的网站监控SaaS服务——监控宝,这是另三个白 简单、易用,基于外网监控的工具,它不须要有太久的投入,就能很快发现那些的问題。监控宝恰好满足了当时网站互联互通的需求痛点,用户增长相当快, 2014 年用户已达 18 万。

      嘴笨 监控宝做得非常成功,或者 ,大要素客户有的是小微企业,付费意愿不强,无法满足云健康智慧进一步发展的需求。再打上去, 2014 年移动互联网的爆炸式发展,行业对APM的需求日趋火爆,云健康智慧顺势推出了APM应用性能管理平台透视宝。

      “当时太久人儿发现,基础监控是客户最底层、最基础的运维需求,再往深入的看,就进入代码层面,叫应用监控,这可是我并且太久人儿所说的APM。”

      据悉,APM和监控宝很大的不同在于它都都还都可不可以服务大中型企业,避免的是简化的IT系统性能那些的问題。当时有三家公司同去进入你这俩 对技术门槛要求很高的领域。

      也可是我说你这俩 方向比另三个白 的更有价值,客单价也从另三个白 的一年几千块变成了几十万。原因分析分析APM满足了大客户的需求,或者 大客户有的是有预算的。

      并且,云健康智慧又根据互联网规模化发展的需求推出了另外两块业务,压测宝和天机数据。其中天机数据聚焦政企大数据方面的应用,通过搭建大数据平台,进行即时数据分析,提供业务发展和商业决策妙招 。

      或者 ,i黑马&数字观察发现,当时市面上的几家APM厂商过得有的是太好,要么否认转型,拓展新业务,要么可是我创始团队退出,公司名存实亡,一时间APM被唱衰的论调此起彼伏。

      “太久人儿这几家厂商从APM高度切入市场的战略是越来越错的。随着企业系统简化度越来越高,而IT对业务的支持原因分析分析业务对IT的依赖度也越来越高,另三个白 客户对故障率、稳定性的需求愈加明显,而APM可是我都都还都可不可以避免那些那些的问題。

      像BAT之类 大型互联网公司,此人 做APM这件事并且了,越来越靠外面的另三个白 产品或体系来做。原因分析分析另三个白 互联网公司从底层架构始于英文英语 搭建到整个代码开发完整篇 有的是此人 的,太久对太久人儿来说,此人 去做APM是另三个白 很自然的事情。”刘洪涛说道。

      为那些并且太久人儿都转型了?

      刘洪涛进一步解释道,一年IT预算几千万甚至是上亿的大企业,须要的是完整篇 的避免方案,而有的是另三个白 工具化的产品,而APM并有的是大型企业的刚需。或者 做另三个白 大客户整个的销售过程是很漫长的,从挖掘客户需求到达成合作 、签订合同、实施,半年时间过去了,同去须要有富有经验的客户服务团队都还都可不可以做你这俩 事。

      几十万,很显然,投入产出比不合理。这跟生国APM市场的渗透程度有关:大客户不愿意 买工具类产品,用那些产品太久人儿不关心,太久人儿关心的是避免那些的问題。总而言之,客户对于故障分析之类 那些的问題的痛点是居于的,但客户回会说想去买另三个白 工具性的产品。

      “当时太久人儿赛道的几家有的是想看 市场有需求,才进来的,但并且太久人儿也都发现了客户不愿意 单一的APM的工具你这俩 那些的问題,你这俩 点和美国那边做单一APM产商活的很好的状态不同。美国客户是习惯购买单一工具类产品,原因分析分析太久人儿的IT心智性成熟图片 图片 是什么是什么是什么期期图片 度高,IT架构也比较清楚,客户技术水平也高,而中国的客户回会说希望是买标准化工具。

      可是我原因分析分析太久人儿这几家都想看 你这俩 那些的问題了,太久个人选用了此人 的下一步该为什么会么会会 避免客户那些的问題的方向,发展到今天,太久人儿的道路不同,结果也是不同的。”

      经过思考,云健康智慧始于英文英语 转型,从单一的工具始于英文英语 向一体化避免方案升级,目标客户定位始于英文英语 向中大型企业延展,云健康智慧认为,必须这要素客户愿意 为业务运维一体化避免方案买单。在此基础上,云健康智慧针对传统行业客户和互联网客户,提供了差异化的产品和避免方案。

      互联网客户的技术能力较强,对业务运维服务需求不大,更偏向于工具性服务,或者 主打工具类产品即监控宝和透视宝。传统行业客户须要综合性那些的问題的避免妙招 ,对之类 客户,云健康智慧直接提供业务运维避免方案。

      谈到云健康智慧的每次转型升级肩头的思考逻辑日后,刘洪涛指出,云健康智慧的基因来自对客户业务和需求的理解,也是太久人儿老是以来追求的。无论是初创阶段做监控宝,还是转型做APM,原因分析分析又升级做业务运维,智能运维,太久人儿始终围绕的是客户到底要那些,太久人儿做对客户的业务,对客户需求的深刻的理解。

      基于那些理解,太久人儿始于英文英语 思考,到底做那些样的东西才都都还都可不可以满足客户须要。同去,云健康智慧有的是此人 的技术能力,把想做的东西通过技术做成产品化的东西,再落地。

      “老是以来,太久人儿对客户的现状和未来有高度的思考和理解,对IT行业有高度的思考,同去又有技术能力去实现太久人儿那些想法,帮助客户避免那些的问題。”

      围绕上述思考,云健康智慧提出了智能运维实施的三阶段战略,第一,数据为先,在你这俩 阶段实现企业IT数据的完整篇 挂接;第二,初步智能化,帮客户发现业务与IT的关联关系,实现业务全链路追踪和根因分析;第三,高级智能化,用AI帮助客户避免更有前瞻性的那些的问題,包括故障预测、容量规划等。

      概括来讲可是我,云健康智慧通过智能业务运维DOCP平台,利用大数据和人工智能技术,以实时大数据避免、AIOps技术体系为基础,由轻量级、低入侵、松耦合的一体化监控、业务运维和智能运维避免方案,以及IT性能监控、应用性能管理、业务效能分析等应用模块为支撑构成一体化的数字化运维中心平台。

      另三个白 一来,企业客户还都还都可不可以通过业务运维可视化大屏,找到亟需避免的IT那些的问題,持续提升业务运营和IT管理速率。

      DOCP是另三个白 运维监控管理和大数据智能分析平台,通过构建起支持数字化业务指标体系,还都还都可不可以全量挂接不同数据源的IT性能数据、告警信息、业务指标数据,利用大数据技术对海量数据进行梳理、规范和关联,利用机器学习、高度学习等AIOps妙招 体系实现根因分析和故障溯源,准确评估系统异常对业务造成的实际影响,实现监控、分析、发现、告警等数字化运维环节的高效管控和业务与IT数据的双向驱动。

      自从 2016 年云健康智慧推出智能业务运维DOCP以来,原因分析分析陆续在银行、保险、证券、零售、制造、航空等多个行业的不同应用场景落地,并获得了用户的一致认可。

      以金融行业为例,Fintech的发展推动传统金融机构加速数字化转型,利用AI、大数据、区块链、物联网、生物识别创新技术,重塑自身业务模式、内部人员流程和决策管理能力,满足业务增长的需求。

      而互联网金融业务的持续增长,传统以稳定可靠为先的IT管理模式和运维服务流程难以满足此人 消费者互联网级的用户体验需求,或者 须要更加精益、敏捷的新一代运维管理避免方案。

      针对金融行业的需求特点,云健康智慧推出全栈智能运维避免方案,以数据为基础,场景为导向,算法为支撑,面向双态IT系统构建全栈统一监控平台,实现竖井系统的数据连通;基于机器学习的跨系统调用链监控与追踪,准确分析业务波动根本原因分析分析;依托PB级大数据能力,实时避免网络、APM、日志数据,实现面向事件的异常检测、根因分析、故障预测和智能告警,有效降低MTTR;围绕业务目标,实现业务与IT的统一健康态势可视化,支撑决策。

      在最后,刘洪涛坦言,云健康智慧从网络监控工具到一体化智能运维避免方案的过程中遇到太久困难与挑战,“首先,从团队自身的迭代可是我很大的挑战。太久人儿另三个白 的产品经理是做简单产品的,现在他要提供简化的避免方案;前端的售前,另三个白 是产品销售型变成避免方案型的售前;整个公司的客户服务流程原因分析分析业务流程也会居于很大的变化。

      其次,单一的Saas产品销售是很容易的,客户须要签了合同,开帐号用就好了,但现在变成避免方案了,交付流程就变得很简化,须要和客户讨论实际状态是那些样,太久人儿须要根据客户的实际状态,提供相应的避免方案,或者 须要让你这俩 方案落地。

      或者 当避免方案在在客户那里上线日后,使用的过程富含的是遇到各种那些的问題,须要帮助客户迭代升级维护。太久对于公司整体运营来说,挑战非常大的。”

本文由站长之家用户投稿,未经站长之家同意,严禁转载。如广大用户太久人儿,发现稿件居于不实报道,欢迎读者反馈、纠正、举报那些的问題(反馈入口)。

免责声明:本文为用户投稿的文章,站长之家发布此文仅为传递信息,不代表站长之家赞同其观点,不对对内容真实性负责,仅供用户参考之用,不构成任何投资、使用建议。请读者自行核实真实性,以及原因分析分析居于的风险,任何后果均由读者自行承担。