빅데이터의 생활속 활용 ①

2018. 5. 16. 10:27IT know-how/서비스분석

728x90
반응형

본 내용은 삼성전자의 "세상을 잇(IT)는 이야기"를 인용하였습니다.

옷을 사려고 백화점에 갈 때 ‘어떤 옷을 사야 할지’ 고민이라면 인공지능의 도움을 받아보는 건 어떨까? 인공지능이 소비 패턴을 분석해서 A사의 운동화를 산 고객에게 다음 쇼핑 정보로 이 고객이 평소 가장 많이 구입한 B사의 재킷을 추천해준다면? 이는 영화 속에 나오는 가상의 이야기가 아니다. 실제 국내 백화점에 올해 초부터 도입된 기술이다. 이처럼 음성 인식 비서 서비스, 동시통역 서비스 등 인공지능을 활용한 다양한 서비스가 등장하는가 하면, 예술·창작 등 인간의 고유 영역이라 생각되는 부분으로 발을 넓히고 있다. 눈부신 속도로 발전하고 있는 인공지능 시대를 살아가기 위해 갖춰야 할 ‘데이터 지능’이란 무엇인지, 이를 향상하기 위한 방법은 무엇인지 알아보려 한다.


빅데이터, 인공지능을 만나다


데이터는 ‘21세기의 석유’라 불릴 만큼 업계에서 그 중요성이 부각되었는데, 이제는 아예 ‘데이터를 가진 사람이 세상을 지배한다’고 할 정도다. 구글, 페이스북, 아마존 등 미국의 주요 IT 기업들은 각각 웹, 소셜 네트워크, 쇼핑 등의 데이터를 무기로 전 세계 사람들에게 정보를 전달하고, 소통을 매개하고, 물건을 판매한다. 다른 기업들은 이들의 기술은 따라 할 수 있어도, 데이터는 얻을 수 없기 때문에 이 기업들의 시장 지배력은 점점 강화되고 있다. 최근에는 이들 기업에 도전할 수 있는 스타트업은 절대 나올 수 없을 것이라는 이야기까지 나오고 있다.

최근 업계의 화두로 떠오른 인공지능 분야에서도 ‘데이터’의 중요성은 여전하다. 인공지능이 멀리서도 내 말을 알아듣고, 차를 자동으로 운전하고, 내 취향에 맞는 음악이나 영화를 골라줄 수 있는 것은 해당 분야에서 엄청난 데이터를 축적했기 때문이다. 이런 데이터 축적은 대용량 데이터를 효과적으로 활용하여 지능적인 결론을 유도하는 기술의 필요성을 낳았다. 결국 클라우드 컴퓨팅과 딥러닝 기술의 발전으로 이어져 기계가 인간 수준으로 말을 이해하고, 이미지를 분류하며, 바둑과 같이 인간의 영역으로 여겨지는 분야에서도 인간을 능가하는 시대가 되었다.

.

인공지능 시대, 모두가 데이터 과학자가 되어야 할까?


이러한 기술 진보를 바라보는 보통 사람들은 마음이 편하지 않을지도 모른다. 기계가 인간의 영역을 조금씩 대체한다는 예측이 나오는 상황에서, 이 흐름에 함께하지 못하면 뒤처진다는 불안감을 느낄 수 있다. 사람들이 ‘데이터 과학’ ‘인공지능’ 관련 커뮤니티의 교육 프로그램에 관심을 두거나, 우리나라에서 어린 학생들에게 ‘코딩 교육’이 유행한 것도 그 불안감에서 기인한 바가 크다.

하지만 데이터 과학자로서, 현업에서 데이터 기반 제품과 서비스가 만들어지는 과정을 오랫동안 지켜본 입장에서 말한다면, 모든 사람이 데이터 과학자, 인공지능 전문가가 될 필요는 없다고 생각한다. 모든 선수가 공격수인 축구팀이 성공할 수 없듯이, 데이터에 대한 기본적인 소양을 갖춘 상태에서 각자의 분야에 최선을 다하는 개인으로 구성된 팀만이 데이터와 인공지능 시대에 성공할 수 있다. 

그 이유는 데이터의 본질에서 찾을 수 있다. 데이터는 현실의 불완전한 반영이다. 현실의 모든 요소를 데이터화하는 것은 불가능하다. 설령 가능하다고 해도 무의미한 데이터를 축적하는 것은 비효율적인 일이다. 그래서 대부분의 연구 조사는 ‘대표 집단’을 표본 추출하여 이루어진다. 이는 방대한 데이터를 보유한 구글이나 페이스북도 마찬가지다. 이들은 온라인 서비스를 개발할 때 철저히 데이터에 기반을 둔 의사결정을 내리고자 한다. 하지만 사용자가 어떤 링크를 클릭했는지는 알 수 있어도 사용자가 실제로 만족했는지는 ‘데이터’만으로 파악하기가 어렵다. 따라서 실제 검색이나 추천 시스템의 품질을 평가하기 위해서는 따로 품질 평가단이라는 대표 집단을 구성할 수밖에 없다.

즉, 데이터 기반의 문제 해결 방식은 ‘표본’을 통해 ‘전체’를 파악해야 하므로, 해당 도메인에 대해 잘 알고 있는 전문가(예를 들어 식품회사 마케팅 직원, 게임업계 종사자 등 해당 데이터에 대해 잘 알고 있는 사람들)의 존재가 필수적이다. 어떤 데이터를 모아야 할지, 주어진 데이터에는 어떤 특성이 있는지, 해결책은 현실성이 있는지 등을 판단하기 위해서는 해당 분야에 대한 이해가 필요하기 때문이다. 사람들은 데이터 기반의 문제 해결 과정을 흔히 ‘눈 가리고 코끼리 더듬기’에 비유한다. 코끼리의 생태에 대해 좀 더 자세히 알고 있는 사람(도메인 전문가)이 있다면, 문제의 전체 내용을 더욱 쉽게 파악할 수 있을 것이다.


‘데이터로 생각하기’, 왜 데이터 지능이 필요한가?


지금까지 데이터 기반 문제 해결 과정에서 도메인 지식 및 전문가의 중요성에 대해 이야기하였다. 즉, 굳이 데이터 과학자가 되지 않아도 자신의 분야에서 전문성을 가지고 있다면 데이터 기반의 문제 해결 과정에서 결과를 끌어낼 수 있다는 것이다. 하지만 모든 과정이 데이터를 기반으로 진행되는 만큼 데이터의 본질과 데이터 기반 문제 해결의 속성에 대한 최소한의 소양은 가지고 있어야 한다. 이는 시대의 흐름에 따라 변하는 프로그래밍·데이터를 다루는 도구에 관한 지식이나 기술과는 구분되는 개념이다.

이런 소양을 사회성이나 공감 능력을 나타내는 ‘감성 지능’, ‘대인 지능’처럼 표현하자면, ‘데이터 지능’이라 부를 수 있다. 숨 쉬고 말하듯 자연스럽게 데이터를 각종 문제 해결에 활용할 수 있는 능력을 ‘데이터 지능’이라 부른다면, 이 데이터 지능이 높을수록 데이터 기반 문제를 잘 해결할 가능성이 커진다고 할 수 있다. 단, 데이터 기반 문제 해결 과정은 크게 현실을 데이터로 표현하는 단계, 데이터에서 결론을 도출하는 단계, 마지막으로 이 결론을 해석하여 현실에 반영하는 단계로 나눌 수 있는데, 각 단계에 따라 조금씩 다른 ‘데이터 지능’이 필요하다고 할 수 있다.

첫 번째, 현실을 데이터로 표현하는 단계에서 필요한 데이터 지능은 해결해야 할 문제를 명확히 정의하고, 필요한 데이터를 수집할 수 있는 ‘기획력’이다. 여기에는 보이지 않는 현상을 구체적인 수치로 바꿀 수 있는 기준(지표)을 정하는 것, 오류나 쏠림 없이 데이터를 수집할 수 있는 방법을 찾는 것, 기존에 존재하는 유사 데이터를 찾아내는 능력이 모두 포함된다. 구체적인 수집 계획은 데이터 과학자와 협의할 수 있겠지만, 데이터 수집에 대해서는 해당 분야의 전문가가 가장 좋은 아이디어를 갖고 있을 것이다.

두 번째, 결론을 도출하는 단계에서 필요한 것은 데이터를 정제하고, 각종 분석 기법을 적용하는 ‘분석력’이다. 현업에서는 이 부분을 주로 데이터 과학자가 담당한다. 하지만 해당 분야의 업무를 꿰뚫는 지식과 실전 경험을 가진 도메인 전문가 또한 분석에 대한 여러 아이디어를 제공할 수 있다. 실제 데이터 과학자는 데이터에 대한 다양한 가설을 세우고 이를 검증하는 일을 한다. 이런 가설에는 풍부한 경험이 필요하기 때문이다. 필자 역시 새로운 분야의 데이터를 다룰 때는 해당 분야의 전문가를 찾아 이야기를 나누고, 자주 피드백을 받기 위해 노력하는 편이다.

마지막으로, 도출한 결론을 해석하고 이를 현실에 반영하는 단계에서는 결론 및 근거에 대해 날카로운 검증을 할 수 있는 ‘비판력’이 중요하다. 그저 흠을 잡기 위한 비판이 아닌, 실제로 현실 반영 단계에서 발생할 수 있는 문제나 오류를 찾아낼 수 있어야 한다. 데이터는 현실을 모두 반영할 수 없으므로, 이를 바탕으로 내린 결론에는 항상 오류가 있을 수 있기 때문이다. 이때 풍부한 경험을 가진 도메인 전문가의 직관과 상식에 따른 검증 과정이 문제 해결 과정 및 결과의 질을 높이는 데 큰 도움이 된다.

.

나만의 분야에서 ‘데이터 지능’을 활용하라


지금까지 데이터 과학자나 머신러닝 엔지니어가 아닌 사람이 IT 기반의 ‘데이터’를 활용하는 과정에서 어떻게 제 몫을 할 수 있을지에 생각해보았다. 요즘 빅데이터나 이를 활용한 인공지능이 시대의 화두가 되면서, 데이터를 기반으로 내린 의사 결정을 절대시하는 경우가 종종 있다. 하지만 복잡한 현상에서 데이터를 추출하고, 이를 다양한 방식으로 가공하고 분석하여 결론을 도출하는 과정에는 다양한 오류의 가능성이 존재한다. 또한, 같은 데이터라 해도 이를 분석한 사람의 주관이 필연적으로 반영되기 마련이다. 이처럼 데이터는 그 가능성만큼이나 한계가 뚜렷하다. 이를 명확히 이해하는 것이 데이터 지능을 기르는 첫걸음이다.

알파고가 바둑에서 인간을 이겼을지는 몰라도, 아직 대부분 분야에서 해당 분야의 전문가에 필적하는 인공지능은 만들어지지 않았다. 해당 분야 전문가의 ‘통찰력’은 단순히 지식이나 정보를 많이 모은다고 생기는 것은 아니기 때문이다. 그래서 더욱 통계나 프로그래밍을 전문적으로 공부하지 않았더라도 기획, 분석, 비판력을 갖춘 도메인 전문가들이 데이터 시대에는 필요하다. 데이터 과학자 역시 이들과 일을 하는 것을 통해 큰 힘을 얻을 수 있다. 둘의 협업 과정에서 필요한 것이 바로 ‘데이터 지능’이다. 

반응형