[HBR] Big Data : The Management Revolution - 아아 빅-데이타 과연 무엇이기에?

   by Andrew McAfee and Erik Brynjolfsson

클라우드도 HBR 에 실릴 때까지 거의 5년이란 세월이 흘렀습니다. 그러나 빅 데이타(Big Data)는 3년이 안 걸리는 시간안에 실리는 기염을 토했습니다. 무엇이 다를까요? 왜 요즘 어디서나 빅 데이타 라는 이야기가 이슈일까요? 

빅 데이타가 새로운 개념이냐 아니냐를 떠나서 기술 (IT) 쪽과 경영쪽 전부가 관심을 가지는 분야임에는 분명합니다. 저도 이 분야에 대한 기술은 어느정도 습득하고 있고 여러 군데에서 일을 해 봤지만 개념도 잘 모르면서 단지 빅 데이터를 해 줬으면 하는 요청들이 많습니다. (데이터가 1400 건 정도 쌓여 있는데 빅 데이터에 맞게 구성해 줬으면 합니다.. 뭐 이런식의?..) 그래서 아직 우리나라 일반적인 기업에 바로 적용하기에는 어느 정도 거품이 있어 보입니다. 그래도 적어도 어떤 개념인지는 알아야 하지 않겠습니까? 

이 아티클은 바로 그 빅 데이타를 경영쪽에서 바라보는 관점에서 정리한 글입니다. 경영진들에게 빅 데이타가 어떤 개념인지 소개하는 것에 가깝지만 이 또한 일반 사람들에게도 소개하기에 좋은 글인 것 같아서 조금 정리해 보았습니다. 


"You can't manage what you don't measure" (당신은 측정 할 수 없는 것을 경영할 수 없다)


이 빅 데이타의 개념을 적절히 활용하면 태생이 디지털적으로 태어난 기업 (예를 들자면 아마존..)뿐만 아니라 전통적인 기업들도 적절하게 변모시킬 수가 있습니다. 

대체 그렇다면 어떤점이 새로운 것인가? (항상 듣는 질문입니다)

세가지 핵심적인 차이가 있습니다. 보통 3V 라고 불리는 차이점입니다. 누가 대체 빅 데이타가 기존의 BI (Business Intelligence) 와 데이타 마이닝 (Data Mining) 과 차이가 뭐냐고 물어본다면 바로 이 대답을 해 주면 될 것입니다. (쿨하게 3V 라고 불리는 차이가 있습니다.. 어쩌구 저쩌구 하시면 됩니다 ㅎㅎ)

1. Volume (용량)

기존과는 비교도 안 될 만큼의 많은 양입니다. 기존 디비 (Database) 정도로는 택도 없는 용량이라고 생각하시면 됩니다. 예를 들어 월마트는 시간당 2.5 페타바이트의 자료가 생겨난다고 합니다. (1페타는 대략 1000 테라라고 보시면 됩니다) 

2. Velocity (속도)

많은 응용분야에서 용량보다는 속도가 더욱 중요합니다. 실시간에 근접할 정도로 빠른 속도를 가져야만 합니다. 

3. Variety (다양성)

빅 데이타에서 활용되는 자료들은 대표적으로 로그 데이터를 비롯해서 소셜 네트워크 서비스에 포함된 이미지 형태, 센서로부터의 분석, GPS 시그널등으로 무척 다채로우며 전통적인 자료들에 비해서 새로운 형태의 자료의 모습을 취합니다. 


아티클에서 나오는 시어즈 홀딩스(Sears Holdings)의 적용 사례를 보겠습니다. 

시어즈 홀딩스는 자회사들과 계열 브랜드로부터 수집된 거대한 데이터들이 큰 가치를 지니고 있다고 판단했습니다. 이러한 데이터로부터 개인 고객에 대한 맞춤화된 프로모션을 제공하는것이 사실은 어려운 일이라고 판단했습니다. 기존 방식으로는 개인 고객에 맞춰진 프로모션을 제공하는 데 걸리는 시간이 8주정도 걸리는데 8주 지난 후라면 이 정보가 더 이상 최적은 아니라고 볼 수 있기 때문입니다. 이리 오래 걸리는 이유는 일단 데이터의 양이 많기도 많지만 각각의 브랜드가 가지고 있는 데이타웨어하우스(분석용 데이터 관리 시스템)와 데이타베이스들이 각각 형태도 다르기 때문에 통합해서 돌려야 하기 때문에 대규모 분석을 필요로 하기 때문입니다. 

대규모 분석 시스템을 구축할려면 돈이 어마어마하게 들어가기 때문에 시어즈 홀딩즈는 가격도 싸고 쉽게 적용할 수 있는 방법에 눈을 돌렸습니다. 바로 빅-데이타 사례와 기술에 의지하기로 해서 Hadoop 클러스터를 구축했습니다. (제 블로그에서 검색하면 하둡 구축하는 방법 많이 나옵니다 ㅎㅎ) 시어즈 홀딩즈는 자사의 모든 브랜드로부터 모이는 자료가 하둡 클러스터에 직접 저장되게 시스템을 바꾸고 모여 있는 자료에서 직접 데이터 분석을 시작했습니다. (바로 맵-리듀스 를 이용했을 것입니다) 

결과적으로 대 성공이였습니다. 8주 걸리는 작업이 1주밖에 안걸리고 이 시간은 점점 더 빨라지고 있다고 합니다. 게다가 기존의 데이타마이닝보다 하둡 클러스터가 일을 처리하는 방식이 더 적은 시간으로 더 많은 용량을 처리할 수 있다고 합니다. 더구나 CTO 였던 필 쉘리(Phill Shelley) 가 놀랐던 것은 이 프로젝트를 시작한 2010년 (하둡 정말 초창기 입니다)에는 사람도 구하기 어려워서 이런 일을 전문적으로 처리해 주는 업체에 외주를 줬지만 이후 기존 시스템이 이 새로운 시스템으로 너무 쉽게 변환이 되서 자사 기술자들도 충분히 따라올 수가 있어서 정말 편했다는 것입니다. (돈을 얼마나 줬길래.. -ㅅ- )

이러한 빅 데이타 기술이 필요한 시점에서 기업이 넘어야할 5가지 경영과제가 존재하지만 그중에서 두가지만 살펴보겠습니다. (나머지는 너무 뻔한 이야기라 .. )

1. Technology (기술)

기술로는 Hadoop 을 추천합니다. 하둡은 오픈 소스 프레임워크 입니다. (본문에는 하드웨어를 결합시켰다는 데 사실 무근입니다..) 다만 기존의 비싼 서버들을 이용하는게 아니라 일용품 성격인 값 싼 서버를 여러대 묶어서 사용합니다. 기존에 데이타를 구축하는 기술과 분석하는 기술이 따로 존재했다면 이 하둡은 데이터를 구축하면서 분석하는 모든 행동을 전부 기술자들이 해야 합니다. 이것이 기술자들이 넘어야 할 장벽입니다. 기존 개발자들은 새로운 기술에 거부감을 가지는 경우가 많기 때문에 이 것을 잘 컨트롤 해야 합니다. 이 기술은 너무나 당연하겠지만 빅-데이타 전략의 필수 구성 요소입니다. 

2. Decision Making (의사 결정)

훌륭한 기술자는 자신이 만든 기술이 아니더라도 능숙하게 사용할 수 있어야 합니다. 바로 이점이 이 바닥 (IT)에서의 고수와 중수를 판가름 짓는 가장 큰 요소라고 봅니다. 빅 데이터 시대에서는 정보는 생성되고 전송됩니다. 그리고 전문 지식은 정해진 자리가 있지 않습니다 (항상 정보는 돌아다니니..)리더는 필히 NIH 신드롬을 최소화 하고 여러 기능들을 잘 조합해서 하나로 묶어낼 수 있을만큼 효율적이고 유연한 조직을 만들어야 합니다. 

 

* NIH 신드롬 (Not Invented Here!) 여기서 개발한 것이 아닌것을 배척하는 배타적 조직문화를 의미