과거의 툴을 사용하여 현재의 끊임없이 변화하는 동적인 IT 환경을 관리할 수는 없습니다. 이처럼 동적인 관리 프로세스와 기술을 요구하는 인프라스트럭처 모델의 진화는 빠르게 진행 중입니다.
비즈니스 환경 역시 수십 년간 공간을 규정해 온 정적이고 예측 가능한 물리적 시스템에서 상황에 맞게 변경 및 재구성되는 소프트웨어 정의 리소스 환경으로 이동하고 있습니다. 또한 네트워크 인프라스트럭처가 진화하면서 이전 모델을 기반으로 한 소프트웨어 시스템의 효율성을 유지하기 위해 더 많은 노력이 필요하며, 그마저도 별다른 효과가 없을 수 있습니다.
이러한 ITOps(IT 운영) 혁신에 따른 디지털 비즈니스 트랜스포메이션이 기존의 IT 관리 기법에 변화를 요구하고 있습니다. 그 결과, 현재의 ITOps 절차와 프로세스에 상당한 변화가 발생하고 IT 에코시스템의 관리 측면에서도 구조적 변화가 일어나게 되었습니다.
Gartner는 2017년, 이러한 변화의 핵심을 나타내는 용어로 Artificial Intelligence for IT Operations, 즉 AIOps를 고안했습니다.
AIOps는 데이터 과학 및 머신 러닝을 사용하여 ITOps 팀이 관리 중인 시스템의 성능 또는 가용성에 영향을 미치는 문제를 실시간으로 파악할 수 있도록 지원합니다.
지난 몇 년 새 AIOps 시장이 폭발적으로 성장한 가운데 기업들이 앞다퉈 이 새로운 발전을 이해하고 앞서 나가는 데 주력함에 따라, Gartner가 받는 문의량도 크게 증가했습니다.
이 확정 가이드는 AIOps, 개발 동력이 된 시장 및 기술 역학, 해결 과제에 대한 대처 방법 등 AIOps에 대해 알아두어야 할 모든 것을 설명합니다.
먼저 디지털 트랜스포메이션과 그로 인한 AIOps 발생 과정에 대해 알아야 합니다.
디지털 트랜스포메이션은 새로운 기술의 구현, 클라우드 채택, 빠른 변화를 포괄합니다. 개발자와 애플리케이션에 중점을 두고 혁신의 속도를 높여야 합니다. 다음의 요소도 포함해야 합니다.
이처럼 새로 등장하는 사용자와 기술 모두 기존의 서비스 및 성능 관리 툴과 전략을 압박하고 있습니다.
성공적인 디지털 트랜스포메이션은 AIOps를 통해 IT가 최신 비즈니스에서 요구하는 속도로 기능할 수 있도록 지원합니다. AIOps는 ITOps에서 디지털 트랜스포메이션을 처리하는 데 필요한 패러다임의 전환을 설명합니다.
AIOps는 “Artificial Intelligence for IT Operations”의 약어로 ITOps(IT 운영)의 미래입니다. 인간의 지성과 알고리즘 인텔리전스를 결합한 것으로, 기업과 비즈니스가 일상 업무를 위해 의존하는 IT 시스템의 성능과 상태에 관한 전반적인 가시성을 제공합니다.
이는 IT 운영을 향상하고 자동화하는 최상위 다계층 기술 플랫폼을 가리키며, 머신 러닝과 분석을 통해 다른 ITOps 디바이스 및 툴에서 수집한 빅데이터를 분석하여 실시간으로 문제를 자동 식별한 후 바로 대처할 수 있습니다.
AIOps를 사용하려면 사일로화된 IT 데이터에서 벗어나 빅데이터 플랫폼 내의 관찰 데이터(예: 작업 로그 및 모니터링 시스템)와 참여 데이터(예: 티켓, 이벤트 또는 보안 사고 기록에서 발견된 데이터)를 통합하는 방향으로 변화해야 합니다.
그런 다음 AIOps는 통합된 데이터에 대해 머신 러닝 및 분석을 구현합니다. 이렇게 지속적인 인사이트를 확보한 다음 자동화 구현을 통해 더욱더 발전할 수 있습니다. 이에 따라 핵심 IT 기능에 대한 CI/CD(Continuous Integration and Continuous Deployment)로 AIOps를 떠올릴 수 있습니다.
AIOps는 자동화, 서비스 관리, 성능 관리의 세 가지 IT 분야를 상호 연결하여 지속적인 인사이트 확보 및 개선 목표를 달성할 수 있게 해줍니다. 이 가속화된 거대 규모의 새로운 IT 환경에서 머신 러닝과 빅데이터를 활용하여 인간과 기존 툴의 제한을 극복할 수 있는 새로운 접근법이 존재합니다.
AIOps는 로그 이벤트, 기존 IT 모니터링, 네트워크 성능 이상 등의 기존 데이터 소스를 활용합니다. 이러한 모든 소스 시스템을 대상으로 수집한 데이터는 번거로운 수작업을 통한 사전 필터링을 거치지 않고도 중요 이벤트를 자동으로 식별할 수 있는 수학적 모델을 사용하여 처리됩니다.
또 다른 알고리즘 계층에서는 이벤트를 분석하여 근본적인 문제와 유사한 징후가 있는 관련 활동 클러스터를 식별합니다. 알고리즘 필터링은 ITOps 팀이 다루어야 할 노이즈 레벨을 현저히 줄여주고, 다른 그룹으로 티켓을 중복 라우팅하면서 발생할 수 있는 중복 문제를 방지합니다.
이에 따라 기업은 즉석에서 가상 팀을 구성하고 다양한 전문가가 조직 또는 기술상의 경계를 넘어 발생할 수 있는 문제를 해결하도록 할 수 있습니다. 기존의 보안 사고 관리 및 티켓 시스템은 AIOps의 기능을 활용하여 기존 프로세스에 직접 통합할 수 있습니다.
또한 AIOps는 자동화를 발전시킵니다. 사람의 개입 여부에 관계없이 워크플로우를 트리거할 수 있습니다. 현재 ChatOps 기능에서는 기존 자동화 기능을 진단 및 문제 해결의 일반적인 협업 프로세스에서 필수적인 요소로 활용합니다.
머신 러닝 시스템이 점차 정확해지고 안정적으로 자리잡아감에 따라 이제 사람의 개입 없이 일상 업무나 이해하기 쉬운 작업들을 트리거하여 잠재적인 문제가 사용자에게 영향을 주기 전에 해결할 수 있습니다.
AIOps 플랫폼을 구성하는 기술은 다음과 같습니다.
모든 AIOps 플랫폼은 기업에 아래 3가지 기능을 제공합니다.
인공 지능(AI)은 사람이 하는 일을 대규모로 더 빠르게, 더 좋은 성과를 거둘 수 있게 수행하는 것입니다. AIOps를 사용하면 디지털 트랜스포메이션의 규모, 복잡성, 속도에 따른 과제를 해결하여 ITOps에서 작업을 수행할 수 있습니다. 이때 직면할 수 있는 과제는 아래와 같습니다.
최신 IT 환경이 모바일, 관리 및 관리되지 않은 클라우드, 타사 서비스, SaaS 통합 등을 포함하면서 인프라스트럭처라는 용어가 거의 유명무실해졌습니다. 비즈니스 복잡성을 관리하는 기존의 접근 방식은 오늘날의 동적이고 유연한 환경에서 더 이상 유효하지 않습니다. 이에 따라 이러한 복잡성을 수동으로 관리하고 트래킹하는 일이 점차 어려워지고 있습니다. 현재 ITOps 기술은 이미 수동 관리로 감당할 수 없는 상황입니다.
성능 모니터링으로 인해 알림 및 이벤트 숫자가 기하급수적으로 증가하고 있습니다. 게다가 모바일 애플리케이션, IOT 디바이스, API, 디지털 또는 머신 사용자가 유입되면서 서비스 티켓 볼륨의 계단 함수(step function) 역시 증가하는 추세입니다.
기업이 운영을 디지털화하면서 IT 자체가 비즈니스화되었습니다. 실제로 기술 "소비"는 산업 전반에서 사용자의 기대치를 바꿔놓았습니다. IT 이벤트에 대한 대응은, 특히 문제가 사용자 경험에 영향을 미치는 경우를 포함하여 즉시 이루어져야 합니다.
DevOps 조직에서는 프로그래머가 대개 애플리케이션 레벨의 모니터링을 맡아 왔지만, 여전히 인프라스트럭처, 애플리케이션, 서비스 간 상호 작용은 물론 IT 생태계 전반의 상태를 관리할 책임은 핵심 IT 부서에 있습니다.
타사 서비스 및 클라우드 인프라스트럭처 도입이 용이해져 사업부(Line of Business) 기능이 강화되면서 IT 애플리케이션 및 솔루션을 구축할 수 있게 되었습니다.에 통제 및 예산 권한이 IT의 엣지로 이동하고 있습니다. 이제 기업은 외부의 핵심 IT에서 더 많은 컴퓨팅 성능을 추가할 수 있습니다.
AIOps는 기존 프로세스 및 툴을 통합하여 유용한 정보, 기능, 인사이트를 통합할 수 있습니다. 기업은 다양한 목적에 따라 서로 다른 지역에 위치한 다양한 모니터링 툴을 사용합니다. 이러한 툴은 특정 직무, 팀, 회사에 중요하지만, 다른 이해 관계자가 그러한 가치를 누리지는 못합니다.
이에 따라 기업은 개별 니즈를 '획일적인(one-size-fits-all)' 솔루션에 끼워 맞추려는 툴 합리화 계획에 매진하기보다 AIOps를 통해 도메인, 팀, 툴 전반에서 원활한 가시성을 제공함으로써 특정 툴이 널리 보급되게 할 수 있습니다.
마찬가지로 AIOps를 통해 실제로 조치가 가능한 보안 사고만 생성하고 중복을 피하는 방법으로 IT 서비스 관리(ITSM)를 지원할 수 있습니다. AIOps는 IT 인프라스트럭처 라이브러리(ITIL)의 순차적 특성에 따라 ITSM 사용자의 불만을 다수 처리하거나 제거할 수 있습니다.
또한 AIOps는 자동화를 도입합니다. AIOps는 조정(orchestration) 및 작업 절차(run book)를 통합하여 운영자가 전체 또는 부분 자동화를 통해 직접 사용할 수 있게 합니다. IT 부서는 지난 수년에 걸쳐 대규모의 자동화 솔루션 라이브러리를 개발해 왔습니다. 이러한 라이브러리는 올바른 조건을 충족할 때만 실행되어야 합니다. AIOps가 이를 보장합니다. 그와 함께 리스크를 최소화하고 기존 자동화 투자의 가치는 극대화합니다.
오늘날 여러 유형의 기술을 다루는 상당한 규모의 IT 환경이 있는 기업에서는 확장성과 복잡성의 문제에 직면하게 됩니다. 여기에 IT 의존도가 높은 비즈니스 모델까지 적용되는 경우에는 AIOps가 기업의 성공에 지대한 영향을 미치게 됩니다. 이러한 조직 유형이 각기 다른 업종에서 나타날 수 있으나, 대체로 규모가 비슷하고 변화 속도가 더욱 빨라진다는 공통점도 있습니다. 이처럼 비즈니스 민첩성이 요구되면서 IT 민첩성이 더욱 중요해집니다.
클라우드 컴퓨팅으로 이전하는 것 역시 쉽지 않습니다. 특히 확장성의 문제가 있는데, 대규모 IT를 클라우드로 이전하는 것이 불가능하거나 바람직하지 않은 경우입니다. 실제로 서로 다른 IT 인프라스트럭처 제공 방식을 통합하는 하이브리드 모델의 운영이 쉽지 않게 느껴질 수 있습니다.
AIOps는 하이브리드 클라우드 플랫폼 운영 시 겪는 각종 리스크를 해소하는 데 도움이 됩니다. 모든 인프라스트럭처 유형을 포괄하는 거시적 관점을 제공할 뿐만 아니라, 운영자가 문서화하기가 쉽지 않은 급변하는 관계도 이해하도록 지원하기 때문입니다.
DevOps 모델을 사용하거나 이를 도입하는 과정에 있는 기업이라면 관련된 다양한 역할 사이에서 조정이 쉽지 않다는 사실을 깨닫게 됩니다. 개발 및 운영 체제를 AIOps 모델로 직접 통합함으로써 인터페이스 마찰을 상당수 예방할 수 있습니다.
개발 팀에서 IT 환경의 현황을 제대로 파악하는 것이 바람직합니다. 그리고 운영 팀은 개발 팀에서 프로덕션 환경의 변경이나 구축을 진행할 시기와 방법을 종합적으로 모니터링하는 것이 좋습니다. 이와 같이 통합적인 가시성을 확보함으로써 프로젝트의 전반적인 성공을 보장하고 민첩성과 대응력을 확보할 수 있습니다.
디지털 트랜스포메이션 이니셔티브는 다양하게 정의되지만, 민첩성과 속도가 요구된다는 점은 동일합니다. 엄밀히 말해 이는 비즈니스 요건에 해당하지만 IT 부서가 병목 현상을 방지하거나 더 큰 목표를 달성하려면 비즈니스 속도로 운영되어야 합니다. IT 부서는 디지털 트랜스포메이션 프로젝트에서 최고의 성공을 거두도록 지원하는 데 걸림돌이 될 여러 마찰 요인을 AIOps로 해소할 수 있습니다.
AIOps 플랫폼을 올바르게 구현함으로써 IT 직원이 지루하고 반복되는 일상적인 알림을 해결하는 데 들이는 시간과 노력을 줄일 수 있습니다. 이를 위해 IT 팀에서 AIOps 플랫폼을 학습시키며, 이 플랫폼은 이후에 머신 러닝과 알고리즘을 사용하면서 진화 발전합니다. 그런 다음 장기간 습득한 지식을 재활용하여 소프트웨어의 동작과 효과를 개선합니다.
AIOps 툴은 사람과 같이 휴식이나 수면을 필요로 하지 않고 지속적으로 모니터링을 수행합니다. 인적 자원은 비즈니스 안정성과 성능을 향샹시킬 계획과 심각하고 복잡한 문제에만 집중할 수 있습니다.
AIOps 시스템은 한 기업의 여러 운영, 리소스, 서비스에 대한 인과 관계를 관찰하고 서로 다른 데이터 소스를 분석 및 클러스터링할 수 있습니다. 머신 러닝 및 분석 기능을 활용하여 유용한 근본 원인 분석을 수행하므로, 그에 따라 비정상적이고 난해한 문제를 해결하고 수습하는 능력이 향상됩니다.
AIOps는 IT 부서와 기타 업무 부서 사이는 물론, IT 그룹 간의 워크플로우 활동과 협업을 향상시킵니다. 팀에서는 맞춤형 리포트와 대시보드를 사용하여 관련 요건과 작업을 빠르게 이해할 수 있습니다. 또한 다른 그룹이 알아야 할 내용을 전부 학습하지 않고도 해당 그룹과 상호 작용할 수 있습니다.
AIOps는 노이즈와 방해 요소를 제거하여 IT 담당자가 관련없는 알림으로 인해 주의가 산만해지지 않고 중요한 문제에 집중할 수 있도록 합니다.
AIOps는 여러 데이터 리소스 전반에서 정보의 상관성을 분석하여 사일로를 제거하는 동시에 네트워크, 시스템, 스토리지(가상, 물리적, 클라우드)를 비롯한 전체 IT 환경에서 종합적인 시야를 확보할 있도록 지원합니다.
또한 서비스 소유자와 전문가 사이에 마찰 없는 협업도 가능해집니다. 결과적으로 진단, 분석, 해결 시간이 단축되고 엔드유저의 업무 중단 시간이 최소화됩니다.
기본 AIOps 기술이 비교적 성숙함에도 불구하고 실제 사용을 위해 기술을 생성 및 결합하려면 아직 갈 길이 멉니다. 몇 가지 AIOps의 단점을 들자면 아래와 같습니다.
성공을 보장하는 보편적이고 명확한 로드맵은 없습니다. 하지만 아래에서 몇 가지 일반적인 조언을 활용하여 시작하는 데 도움을 받을 수 있습니다.
AIOps를 처음 보면, 기존 툴 범주 중 어디에 해당하는지가 곧바로 떠오르지 않을 수 있습니다. 그 이유는 AIOps가 최신 모니터링, 조정(orchestration), 서비스 데스크, 로그 관리 등의 툴을 대체하지 않기 때문입니다. 대신 AIOps는 각종 도메인 및 툴과 연계하면서 정보를 통합하고 소비합니다. 아울러 유익한 정보를 생성하여 모든 툴에 대한 동기화된 관점을 확보할 수 있게 합니다.
이와 별도로 이러한 툴은 자체적으로 가치를 보유합니다. 하지만 이들이 서로 연결되지 않은 상태에서는 올바른 시간에 정확한 정보에 액세스하기 어렵습니다. AIOps는 ITOps 팀이 알아야 할 중요한 내용에 대한 통합적인 이해를 위해 서로 다른 부분적인 시각을 조합하는 유연한 방법을 제공합니다.
AIOps가 ITOps를 위한 매우 획기적인 기술이지만, 빅데이터 및 머신 러닝을 최초로 적용한 사례는 아닙니다. 주식 중개인들은 수동 거래에서 시스템 거래로 이동하면서 비슷한 ML 접근법을 구현했습니다. 소셜 미디어에서도 Google Maps, Yelp, Waze 등의 애플리케이션이나 eBay 및 Amazon 같은 온라인 쇼핑몰에서 오랫동안 ML과 분석을 사용해 왔습니다.
이러한 기법은 변화하는 조건과 사용자 커스터마이징에 실시간으로 대응해야 하는 환경에서 안정적이고 광범위하게 그 유용성이 입증되었습니다.
AIOps에서 AI 도입은 머신 러닝보다 전망이 밝습니다. 지금으로서는 단순 자동화를 사용하거나 ML과 자동화를 결합하는 방법으로 긴급한 활용 사례를 해결할 수 있습니다. AI의 진화 발전과 관련 활용 사례는 계속 진행 중입니다. 조만간 AIOps가 사람의 동작을 모델링하기 시작할 것이므로 ITOps에 강력한 AIOps 기반을 수립하는 것이 중요합니다.
업무 특성상 보수적인 성향 때문에 ITOps 인력이 AIOps 환경에 적응하려면 시간이 오래 걸립니다. 하지만 계속 관심을 가지고 기업의 인프라스트럭처에 안정성을 제공하도록 해야 합니다. AIOps 애플리케이션이 갈수록 확산되면서 ITOps 매장은 조만간 새로운 AIOps 기술과 전략에 적응해야 할 것입니다.
본 AIOps 가이드를 참고하여 AIOps가 귀사에 적합한 선택인지 판단하고 구현을 시작할 시기와 사용 방법을 결정할 수 있을 것입니다. 아울러 AIOps의 최신 동향에 관심을 기울이는 것이 좋습니다. 이 혁신적인 기술의 성장 가능성을 보여주는 징후가 다양하게 드러나고 있습니다.
귀사에 AIOps를 통합하고 싶으십니까? 베리타스가 도와드리겠습니다. 지금연락처로 문의하여 담당자와 통화하십시오.
'AIOps'라는 용어를 처음 만든, 업계를 대표하는 자문 기관인 Gartner는 베리타스를 데이터 센터 백업 및 복구 부문의 선두 주자로 무려 17차례나 선정했습니다. 이 리포트에서 Veritas NetBackup에 관해 자세히 알아보십시오.
Netbackup IT Analytics는 온프레미스 및 멀티 클라우드 환경에서 모든 주요 스토리지, 백업, 가상 인프라스트럭처를 위한 통합 인사이트를 제공하는 유일한 IT 분석 소프트웨어입니다.