본문

5년차 단골고객인 밸런스히어로가 와탭을 사용하는 방법

작성일 2023년 12월 24일

truebalance_logo.jpg

 

5년차 단골고객인 밸런스히어로가 와탭을 사용하는 방법

중국 다음으로 많은 인구를 가진 나라, 인도인이 사용하는 핀테크 앱 ‘트루밸런스’는 잔액 조회를 중심으로 잔여 데이터양, 잔여 통화량 확인 및 충전이 가능한 핀테크 플랫폼입니다.

인도, 필리핀 등 동남아 시장은 스마트폰의 가입당평균매출(ARPU)이 낮고, 선불제로 과금이 운영되고 있습니다. 기존 우리가 알고 있는 방식과 다르게 인도에서는 잔액 조회를 ‘USSD’라는 방식을 이용하고 있는데요.

통화량과 데이터양에 측정이 어렵기에 사용자 USSD Code를 이용해 직접 통신사에 전화하거나 문자를 보내 잔액에 대한 정보를 회신 받습니다. 이러한 번거로움을 해소하고자, 트루밸런스는 잔여 통화량과 데이터양을 간편하게 조회 가능한 서비스를 개발하였습니다.

 

app.jpg


그 결과는 수치로 증명됐는데요. 출시 다음 해 다운로드 수가 1000만 건을 넘으며 인도 핀테크 업체 중 가장 빠른 성장을 보였습니다.

인터뷰를 함께한 밸런스히어로 장길수님은 서비스 초기부터 와탭으로 서비스를 운영하였습니다. 그래서인지 와탭 제품에 대한 피드백과 고민이 인상적이었어는데요. DB와 서버를 담당하고 계시는 장길수님과 한다윗님을 만나 와탭 모니터링으로 어떻게 서비스를 운영하고 관리하는지에 대해 이야기를 나눴습니다.

밸런스히어로에서 운영이 중요한 이유

IT 인프라 현황에 대해 말씀해 주세요.

장길수님(이하 길수): 전체 인프라를 다 AWS를 사용하고 있습니다. 인도에서 서비스를 하는 회사다 보니까 한국 리전에는 서버가 없고 인도 리전에 주요 서비스가 몰려 있어요. DR을 제외하고 AWS를 이용하고 있습니다.

와탭 도입 배경에 대해 말씀해 주세요.

길수: 저희가 와탭을 도입한건 5년 전인데요. 그 당시에 와탭 서비스도 막 시작한 서비스였던 걸로 기억합니다. 저희도 다른 APM을 사용해 본 경험이 없었고 조금은 쉽고 가볍게 시작할 APM이 필요했었습니다. 마침 당시 와탭은 초기여서 그럴 수도 있지만 설치가 쉽고 뭔가 필수 기능만 별다른 설정 없이 볼 수 있었던 간편한 제품이었어요. 저희 눈높이에 맞는 제품이었고 초기에 지원도 적극적으로 해주셨습니다.

다른 제품과 비교 시 장점에 대해 말씀해 주세요.

길수: DB 같은 경우 한번 보면 우선 기본 세팅이 다 돼서 나오는 게 가장 편하고요. 그다음에 에이전트 방식은 사용자마다 다르게 느낄 수도 있지만 딱히 기술을 쓰지 않아도 단순하게 에이전트 설치하고 DB 연결만 하면 대부분의 모니터링 수집이 되고 그다음에 웹 페이지를 통해서 필요한 그래프들이 한 번에 나온다는 거. 간단하게 보면 설치가 쉽고 사용이 간단한 거죠. 다른 APM 같은 경우에는 설치부터 세팅까지 방식이 어렵고 특히 설치는 쉽지만 세팅이 어렵거든요. 자신이 원하는 것들을 하기에 메뉴도 너무 많고 근데, 와탭 같은 경우에는 설치부터 구성 , 즉 모니터링 설치 과정을 제가 처음에 아무것도 모르고 했을 때 다 끝내는데 한 30분~1시간 안에 끝냈던 것 같아요.

한다윗님(이하 다윗): 저는 APM을 사용할 때 데모(Demo)는 써봤지만 실제로 다른 APM은 써본 적은 없거든요. 그런데 다른 제품들의 데모를 하다 보면 어려움에 직면할 때가 많았어요. 왜냐하면 설정하다 보면 너무 방대하기도 하고 상세하게 뭔가 다 해줘야 원하는 결과를 얻을 수 있으니까요. 근데 와탭을 저도 한 3~4년을 썼는데 초기에는 거의 설정이 없었고 변경할 수 있는 설정이 별로 없었어요. 최근에 와탭도 기능이 많아져서 조금 어려워졌어요. 그래도 상대적으로 편하지 않나.. D사나 E사 APM이나 이런 것들에 비해 쉽게 접근할 수 있다고 생각을 합니다.

와탭 서비스 화면 중 가장 많이 보는 화면 있을까요?

길수: DB는 인스턴스 모니터링 페이지랑 플렉스 보드, 거의 그래프 위주의 서비스를 많이 보고 있고요. 그다음, 인스터스 모니터링이 이제 액티브 세션들 나오잖아요. 실시간으로 쿼리들 처리되고 있는 거 나오는 걸 가장 많이 확인합니다.

다윗: 애플리케이션 모니터링에서는 히트맵 많이 보고 있어요. 히트맵의 패턴에 대해서 익숙해지면 이게 어떤 이슈인지 조금 파악하기가 더 편한 형태로 보이더라고요. 예를 들어서 3초대의 빨간 줄이 쭉 걸려있다. 그것에 대한 thread가 어디가 걸려있는지 파악하기 쉬워서 보고 있고요. 그거 위에 여러 가지 큐가 예전 우리가 실제로 놓쳤다고 해도 큐브에 저장돼 있는 것들이 있어서 그 큐브에 들어가서 내용들을 다시 둘러보고 맞는 패턴을 다시 잡고, 패턴으로 발생되는 이슈들에 트레 킹하기 훨씬 더 편해서 그런 걸 좀 보고 있어요.

서버 모니터링은 최근 들어 사용하기 시작했는데 좋은 점은 저희가 서버 모니터링으로 자빅스를 쓰고 있는데 자빅스는 특정 시점 정해서 어떤 프로세스가 어떻게 cpu를 사용했나 아니면 메모리를 어떻게 사용하고 있느냐를 확인하기 쉽지 않거든요. 자빅스나 다른 레디스나 이런 모니터링들은 확인이 어려워요.. 근데 와탭 서버 모니터링은 서버 리소스 사용량을 historical 하게 남겨줘서 그 시점에 예를 들어서 실제 자바가 운영해서 쓴 애플리케이션이 실제로 cpu나 메모리를 사용하고 있는지 파악할 수 있어서 프로세스가 사용하고 있는 cpu, 메모리 부분을 많이 보고 있어요.

와탭을 이용하면서 문제를 해결했던 경험이 있을까요?

길수: 요즘 큰 장애는 없어 장애 대응을 했다기보다는 평소에 이슈가 생겼을 때, 이슈 트래킹 시, 인스턴스 모니터링을 자주 확인해요. P사나 D사나 어떤 API를 보더라도 인스턴스 모니터링할 때 그래프 위주가 많아요.

 

instance.jpg


물론 쿼리를 볼 수 있는데 와탭 같은 경우에는 인스턴스 모니터링에 Total runtime을 누르면 그래프와 함께 수행된 쿼리가 함께 나와요. 쿼리와 관련 없는 수치들이 올라가면 쿼리의 문제가 아닌, 다른 문제가 발생을 했구나를 한 번에 파악할 수 있어요. 그래서 한 번에 같이 볼 수 있는 게 장점인 것 같아요. XOS 설치하면 프로세스 정보도 나오고 락 정보와 DB 관련된 정보를 한 페이지에 볼 수 있어요. 슬로우 쿼리가 대량으로 들어오거나 어떤 쿼리에 변경에 의한 락이 잡혀있는 경우, 그런 것들을 여러 관계에서 파악해야 되거든요. 대량 큰 장애로 가기 전에 마이너한 상태에서 보고 빨리 판단해서 조치할 수 있도록 계속 확인하고 있어요. 사실상 DB는 한 번 장애가 나오면 큰 장애잖아요. 그러니까 그전에 사전 파악하고 조치를 해야 돼서 실시간으로 계속 모니터링하고 있어요.

사용하면서 어떤 기능이 가장 큰 도움이 되었고, 와탭을 사용하며 빛을 발휘한 적이 있을까요?

서비스의 중심에서 gateway 역할을 하고 있는 프로세스의 액티브 트랜잭션과 히트맵이 큰 도움이 되었습니다. 대형 장애(전체 서비스 불가)를 가장 먼저 알아챌 수 있었기 때문인데요. 어떤 트랜잭션에서 밀리는지 파악하고 원인을 추적해서 문제를 해결할 수 있어 도움이 되었습니다. 그리고 각각의 Class에 대해서 트랜잭션 에러에 대한 Statistics를 제공해 주고 있는데 일부 장애(일부 서비스 불가)가 발생한 경우 개발자가 Error Log를 남기지 않아서 증상을 파악할 수 없었습니다. 와탭의 메뉴를 통해서 증상을 알 수 있게 되었고 문제 원인을 찾아서 해결할 수 있었습니다.

서버 배포시 발생된 이슈는 경고 알림으로 확인해요.

길수: DB의 경우, 와탭 경고 알람을 Slack으로 수신 받고 있거든요. 문제가 발생했을 때 Slack으로 확인하니까 모니터링 화면을 주시하고 있는 건 아니지만, 24시간 모니터링하고 있는 것과 마찬가지죠.

다윗: 애플리케이션 모니터링의 경우, 조금 많이 보고 있어요. 시스템 성능도 보긴 하지만 저희 API들의 지표나 에러를 수집하기 위해서도 보고 있거든요. 어떤 패턴으로 어떻게 일어나고 있는지, 저희 서비스 자체가 인도 서드 파티라서 연동을 하면 몇 시간 동안 인도에서 장애가 발생했을 경우, 타임아웃이 걸리는 경우가 종종 있거든요. 저희는 배포가 거의 매일 있어서 그 시간대는 무조건 보고 있어요. 제가 아닌, 다른 엔지니어가 배포해도 저는 계속해서 모니터링하고 있어서 하루 평균 3~4시간은 보고 있는 것 같아요. 저도 알림은 Slack으로 받고 있어서 경고 알림이 발생하면 즉시 확인하고 있습니다.

밸런스히어로가 추천하는 3가지 기능

DPM에서 자주 보는 기능

  • flex 보드와 히트맵 트랜잭션을 가장 많이 활용합니다.
  • 에이전트 방식은 사용자마다 다르지만, 에이전트 설치부터 DB 연결만 하면 대부분의 모니터링 수집이 되고 관련된 그래프가 나와요. 쉽게 말해 설치가 쉽고 사용이 간단합니다.
  • DB에 비정상적인 쿼리나 유입량이 발생했을 때 대량의 외부 유입으로 발생되는 것 인지 내부 배치인지 특정 API에서 발생시킨 것인지 확인하기 위해 여러 지표를 함께 보면서 파악합니다.

APM에서 자주 보는 기능

  • 히트맵을 가장 많이 보고 있어요. 직관적으로 현재 상태를 볼 수 있어 좋고, 장애 패턴을 통해 원인 파악 및 유추에 도움이 됩니다.
  • 큐브 분석을 통해 CPU와 메모리를 기준으로 수치를 파악하여 놓쳤던 패턴을 다시 잡고, 발생하는 이슈를 트레킹 하기 편했어요.

궁금한 점은 실시간으로 해결!

길수: 채널 톡의 경우, 실시간으로 답변이 디테일하고 상세하게 잘 왔습니다. 그리고 해결되지 않은 부분은 메일로 엔지니어와 바로 연결시켜주셨고 답변 또한 디테일하게 잘 왔습니다. 기술 지원 서비스의 경우도, 서포트도 굉장히 잘해주셔서 만족스럽게 생각하고 있습니다.

시리즈 B 투자 유치한 스타트업이라면?

길수: 스타트업 회사들의 경우, 충분히 사용해 볼 만하다고 생각해요. 모니터링 뭘 사용해야 할지 고민이 될 텐데, 복잡하게 대형 APM보다는, 가볍게 시작하기 좋은 와탭을 추천드려요. 복잡하지 않고 심플하고 지원 서비스도 굉장히 넓고 따뜻하게 잘 대응해 주십니다.😊

 

startUp.jpg


서비스 성능관리는 와탭 애플리케이션 모니터링으로!
와탭 무료로 시작하기

지금 바로
와탭을 경험해 보세요.