4차 산업혁명의 원유, 데이터를 다루는 역량에 대하여
디지털 마케팅 시대의 ‘데이터 리터러시’
디지털 마케팅 시대에서 마케터의 역량으로 대두되는 ‘데이터 리터러시’ 역량이라는 단어를 한 번쯤은 들어보셨을 듯합니다. ‘디지털 마케팅 시대에서 마케터의 역할과 역량’에서도 데이터 리터러시에 대해 잠깐 언급했었는데요. 이번 글에서는 데이터 리터러시가 무엇인지 조금 더 자세히 알아보도록 하겠습니다.
(주)빅인사이트 support@bigin.io
데이터 리터러시란?
‘Data’와 ‘Literacy’의 합성어로 ‘데이터를 읽고 이해하고 분석하며 비판적으로 수용 및 활용할 수 있는 능력’
디지털 마케팅 시대에 넘쳐나는 데이터를 제대로 활용하기 위해서는, 무작정 데이터 수집만 하는 것이 능사가 아닐 것입니다. 목적 없이 수집된 데이터는 오히려 번잡함만 초래하고, 잘못된 데이터 해석은 잘못된 의사결정이라는 결과를 불러옵니다. 그렇기 때문에, 데이터 리터러시 역량은 비단 데이터 마케터뿐만 아니라 개인에게도 매우 중요한 역량이라고 할 수 있습니다.
데이터 리터러시 하위 역량
그렇다면, 목적에 맞는 데이터를 수집하고 이를 잘 활용하려면 어떻게 해야 할까요? 크게 4가지를 꼽을 수 있습니다. 다음은 데이터 리터러시 하위 역량입니다.
① 수집
② 관리
③ 가공 및 분석
④ 시각화
⑤ 해석
각각이 뜻하는 것이 무엇인지, 이를 잘 갖추지 못하면 어떤 일이 일어나는지 하나씩 살펴보도록 하겠습니다.
① 수집
데이터 분석의 시작이라고 할 수 있는 단계, 바로 필요한 데이터를 모으는 ‘데이터 수집’ 단계입니다. 그런데 데이터 수집에 착수하기 앞서 선행돼야 할 중요한 단계가 있습니다. 바로 데이터의 활용과 분석의 목적을 분명하게 하는 것인데요. 분석을 통해 확인하고자 하는 사항은 무엇인지 미리 생각해야 수집할 데이터와 방법을 설계할 수 있기 때문입니다. 목적이 없이 축적만 된 데이터는 비즈니스에 아무런 도움도 주지 못하고 컴퓨터의 용량만 잡아먹는 애물단지로 전락하기 십상이겠죠?
예를 들어보겠습니다.
[예시]
한 놀이공원의 마케팅 담당자 A 씨는 마케팅 전략을 펼치기 이전, 현재 매출 현황은 어떤지 궁금했습니다. 이를 위해 지난 3년간의 매출 정보 데이터를 수집해야겠다고 마음먹었습니다. 매출 데이터를 수집하다 보니, 예상보다 그 양이 너무 방대해졌습니다. 고민하던 A 씨는 일별 매출 데이터가 아닌 월별로 묶어서 수집하기로 결정했습니다.
혹시 문제를 눈치채셨나요?
놀이공원이라는 특성상, 평일보다는 주말에 더 많은 매출이 발생할 것입니다. 이에 대한 고려 없이 매출 데이터를 일 단위가 아닌 월 단위로 수집하기로 설계한다면, 평일과 주말의 매출 차이를 확인할 수 없게 됩니다. 설계 단계에서의 오류가 발생한 것입니다. 목적에 맞는 데이터를 제대로 수집하기 위해서는 올바른 수집 설계부터 이뤄져야 함을 보여주는 예시입니다.
② 관리
수집된 데이터를 분석이 가능한 형태로 구조화하고 정제하는 단계입니다. 많은 분이 인지하고 계시다시피, 관리 단계에서도 기술적인 역량이 요구되는데요. 체계화되지 않은 데이터 관리 때문에 중요한 정보를 잃는 불상사가 발생하기도 합니다. 이를 막기 위해서는 수집 데이터를 보호하기 위해 어떤 조치를 취해야 하는지에 대한 전략을 세우고 데이터를 관리하는 능력이 필요합니다.
놀이공원 마케터 A 씨의 예시로 돌아가 보겠습니다. 수집된 데이터를 관리하던 A 씨는, 전체 데이터 중 매출 데이터만을 사용하게 될 것이라 지레짐작해 날짜와 매출을 제외한 모든 데이터를 지워버렸습니다. 그런데 데이터를 가공하던 A 씨는 매출의 형태가 유난히 높은 날과 그렇지 않은 날이 매우 들쑥날쑥하게 섞여 있음을 알 수 있었습니다. 매출에 영향을 미치는 요소들이 무엇일까 궁금했지만, 이미 모든 데이터를 지워버린 이후라 확인할 수 없었습니다.
매출에 영향을 미치는 데에 날씨, 놀이공원 내 페스티벌 유무, 인기 놀이기구 운영 여부 등 다양한 요인이 존재합니다. 사용하지 않는 데이터라고 해서 섣불리 지워버리기보다는, 가능하다면 가공하지 않은 원본 데이터를 지니고 있는 것도 좋은 방법입니다.
③ 가공 및 분석
목적에 맞는 분석 방법으로 데이터를 분석하여 결과를 도출해내는 단계입니다.
‘구슬도 꿰어야 보배’라는 말처럼, 데이터도 제대로 가공하고 분석할 때 비로소 의미를 지닐 수 있습니다. 역시 예시를 들어보겠습니다.
[예시]
지난 3년간의 매출 데이터를 모은 놀이공원 마케터 A 씨는 이제 업무에 활용하기 위해 데이터를 가공할 계획을 세웁니다. 3년 치 데이터를 모두 보기에는 시간이 너무 많이 지나버린 것 같아, 최근 4개월간의 데이터만 추출하기로 결정합니다.
2018년 12월부터 2019년 2월까지의 놀이공원 매출 데이터를 평일과 주말로 나눠 평균 내 봤습니다. 그런데, 평균값이 2019년 3월 한 달 매출의 40% 정도밖에 되지 않았습니다.
최근 데이터라는 이유만으로 충분하지 못한 데이터를 가공해 결과를 도출해버린다면, 동절기(비수기)와 성수기의 매출 차이를 고려하지 못하게 됩니다. 단적인 예시이지만 데이터를 다루는 실무에서 빈번하게 나타날 수 있는 문제이므로 경계해야 하는 부분입니다.
④ 시각화
데이터를 한눈에 알아보기 쉽도록 그래프, 차트 등의 형태로 표현하는 단계입니다. 시각화 단계에서는 다양한 그래프 중 주제와 목적에 맞는 것을 선정해, 데이터를 왜곡 없이 나타내는 것이 중요합니다.
⑤ 해석
아무리 잘 뽑아낸 데이터라 할지라도, 결과만 보고 이를 활용할 계획을 세우지 못한다면 공을 들여 분석한 데이터의 의미가 사라질 것입니다. 바로 이 해석 단계가, 데이터 분석 결과물을 활용하기 위해 계획을 세우는 중요한 단계입니다.
다시 예시입니다. 데이터 분석 결과를 통해 A 씨는, 다음과 같이 결과를 시각화해봤습니다.
A 씨는 해당 연도에만 특이하게 나타나는 점에 주목했습니다. 7월 초를 기점으로 놀이공원 내 맥주 판매량이 급격하게 증가한 것입니다. 이 시기의 사회적 요인을 조사해봤더니, 7월 2일부터 주 52시간 근무제가 시행되고 있었습니다. 데이터 분석을 시작하기 전에는 놀이공원에 가족 단위 고객이 가장 많을 것이라고 생각했던 A 씨는 의외의 결과를 발견한 것입니다.
A 씨는 데이터 분석으로 얻은 결과를 토대로, 새로운 타깃인 직장인을 상대로 하는 마케팅을 기획하기로 결정했습니다.
“주 52시간 근무가 시행되자, 놀이공원의 음식 카테고리 중 맥주의 판매량이 늘었다.”
→ 퇴근 후 여가시간이 많아진 직장인들을 상대로 하는 마케팅을 실시해보자.
A 씨는 직장인들에게 야간 입장권을 50% 할인해주는 이벤트를 실시했습니다. 또한 야외 가든에서 맥주와 함께 즐길 수 있는 안주를 보완하고, 음악을 연주하는 ‘한여름 밤의 맥주 페스티벌’을 기획했습니다. 그 결과, 입장권 판매량과 맥주 판매량을 230% 성장시킬 수 있었습니다. 다음 글은 데이터를 시각화하는 방법에 대해 조금 더 자세히 알아보겠습니다.
데이터 시각화란 무엇인가요?
위키백과에서는 데이터 시각화를 아래와 같이 정의하고 있습니다.
데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정.
풀이가 조금 더 잘 와 닿을 수 있도록, 아래 예시를 보여드리겠습니다. 다음은 GA 획득 보고서의 전체 트래픽 테이블 표입니다.
구글 애널리틱스의 획득 보고서 화면입니다. 우리 웹사이트에 들어온 유입자가 어떤 경로(채널)를 통해 들어왔는지를 나타내는 표입니다. 각 채널로 세션이 유입되는 수를 비교해보고, 평균 세션 시간이 궁금하여 측정항목을 확인해봤습니다. 그런데 숫자가 많아 한눈에 잘 들어오지 않을뿐더러, 다른 기준과의 비교도 어렵습니다. 이를 시각화해보면 다음과 같습니다.
기준이 되는 세션의 비율은 크기로 나타납니다. 반면, 평균 세션 시간은 색상으로 나타납니다.
크기가 가장 큰 Display 채널이 가장 많은 세션을 유입시킨 채널입니다. 하지만 해당 세션의 평균 세션 시간은 높지 않음을 알 수 있습니다. 색상이 가장 진한 Referral 채널을 통해 유입된 세션은, 세션 수는 적어도 가장 오랜 시간을 머물렀음을 한눈에 파악할 수 있습니다. 하나의 차트에서 두 가지 기준 항목을 확인할 수 있는 시각화 사례입니다. 이처럼 숫자로는 들어오지 않는 데이터를 한눈에 보기 쉽도록 정리하는 단계가 바로 데이터 시각화입니다.
어떤 차트를 어디에 사용할까요? 차트의 종류 및 용도
데이터를 시각화하기 위해 사용하는 차트의 종류에는 어떤 것들이 있을까요? 아주 다양한 차트가 있지만, 대표적으로 많이 사용되는 아래 다섯 가지를 살펴보겠습니다.
· 바 차트 (막대그래프) : 두 가지 이상의 변수 간 데이터를 비교할 때 사용
· 라인 차트 (꺾은선 그래프) : 데이터의 트렌드 및 패턴을 파악하기에 용이
· 분산 차트 (산포도) : 두 변수 간 상관관계를 표현하기에 용이
· 파이 차트 (원그래프) : 전체 항목의 비율을 100으로 놓고 봤을 때, 각 항목이 전체에서 차지하는 비율을 비교하기에 유용
· 방사형 차트 : 데이터 계열이 여러 가지일 때, 데이터 값을 비교하기에 유용
각각의 차트가 다르게 생긴 만큼, 쓰이는 상황도 다릅니다. 데이터를 시각화할 때에는 목적에 맞는 차트를 사용해야 합니다. 그래야 데이터의 패턴을 파악하고, 이슈를 확인하고, 해결방안을 도출할 수 있기 때문입니다.
데이터 시각화 유의사항
데이터를 시각화할 때 주의해야 하는 점이 있습니다. 바로 데이터의 왜곡이 없는지 확인해야 한다는 점입니다. 아래 두 그래프를 살펴보겠습니다. 둘 중 잘못된 차트는 무엇일까요?
왼쪽 그래프의 Y축 시작 값을 먼저 보겠습니다. 950,000원을 나타내고 있습니다. 반면, 오른쪽 그래프의 Y축 시작 값은 0원을 나타내고 있습니다. 두 그래프는 모두, 아래 하나의 데이터를 나타내는 그래프입니다.
이처럼, 시각화를 하는 사람의 개인적인 의견이 반영된다면 해석의 왜곡을 일으킬 수 있습니다. 그래서 데이터를 시각화할 때에는 데이터의 왜곡이 없는지를 확인해야 합니다. 당연한 이야기를 한다고 생각하실 수 있습니다. 하지만, 실제로 우리가 자주 접하는 뉴스에서도 데이터 왜곡이 일어나는 경우가 빈번합니다. 사실을 전해야 하는 뉴스에서 데이터 왜곡이라니, 믿기 어려우시겠다고요? 그래서 실제 사례를 보여드리고자 합니다.
데이터 왜곡 실제 사례
먼저 SBS 뉴스 사례입니다.
중국에 수출하는 비중, 그리고 미국+EU+일본에 수출하는 비중을 비교해 놓은 차트입니다. 해당 사례에는 두 가지 왜곡이 존재합니다.
① 그래프를 언뜻 보면, 중국에 수출하는 비중이 부각돼 큰 폭으로 높아 보입니다. 그러나 수치를 확인해 보면, 두 데이터의 차이는 0.4% p 뿐입니다. 시각화를 할 때 의도적으로 차이를 강조해 부각함으로써 왜곡이 일어난 것으로, 잘못된 차트 활용의 예라고 할 수 있겠습니다.
② 또 다른 왜곡은 변수 조작의 왜곡입니다. ‘한 국가에 수출하는 비중’이라는 통일된 기준이 아닌, ‘한 국가에 수출하는 비중(중국)’과 ‘두 국가와 연합체에 수출하는 비중을 모두 합친 비중(미국+EU+일본)’을 비교하고 있습니다. 변수를 임의적으로 조작하고 통합하는 의도적인 왜곡이 발생한 것입니다. 데이터의 비교는, 같은 수준의 단위로 이뤄져야 합니다. 또 다른 사례를 보시겠습니다. JTBC 뉴스룸에서의 데이터 왜곡 사례입니다.
지난 대선 당시, 대선 후보 지지도를 보여주는 과정에서 JTBC는 지지율 24%인 안희정 후보의 막대그래프를 문재인 후보의 61% 막대그래프의 절반 이상의 높이로 나타냈습니다. 숫자보다 시각화에 더 빠르고 민감하게 반응하는 시청자들을 상대로 왜곡을 일으킨 것입니다. 이를 옳은 그래프로 나타내려면 다음과 같이 정정해서 보여줘야 합니다.
마찬가지로, 아래 그래프에서도 왜곡이 발생하고 있습니다. 역시 jtbc의 사례입니다.
대선주자 지지도 상승 폭 그래프에서 문재인 후보의 상승 폭은 축소하고, 나머지 후보들의 상승 폭을 과장하여 나타내기도 했습니다. 그림으로 나타낸 차이 폭을 보시면 황교안 후보의 상승 폭 5.6%p가 문재인 후보의 상승 폭인 6%p보다도 두 배 이상으로 크게 나타나 있음을 알 수 있습니다. 이를 옳은 그래프로 나타내려면 다음과 같이 정정해야 합니다.
결국 JTBC는 빈번한 그래프 오류와 오역 보도에 대해 사과하는 상황에 이르렀습니다. 어쩌면 의도적인 왜곡이었을지라도, 우리는 정확한 정보를 파악해야 합니다. 데이터 시각화 역량을 길러야 하는 이유입니다.
이런 차트도 있어요
데이터 시각화와 관련해서, 흥미로운 차트 두 가지를 알려드리고자 합니다.
① 단계 구분도 (Choropleth map)
이번 봄, 다들 미세먼지로 고생하셨죠? 신문 기사 또는 뉴스에서 아래와 같은 미세먼지 지도를 다들 한 번쯤 접해보셨을 듯합니다.
이런 종류의 차트를 ‘단계 구분도’라고 합니다. 지역 별 데이터를 서로 다른 색상이나 음영으로 지도 위에 표기하는 차트입니다.
차트를 보면, 2015-2018년도에는 마포구와 관악구가 초미세먼지 나쁨 단계를 초과하는 빈도가 가장 잦았다는 사실을 직관적으로 확인할 수 있습니다. 이처럼 지역 별 데이터를 한눈에 보기 쉽다는 장점 때문에, 지역 관련 통계에 빈번히 사용되는 차트 유형입니다.
② 코드 다이어그램 (Chord diagram)
다른 흥미로운 차트입니다. 웹사이트 사용자 행동 분석 솔루션 빅인(bigin)의 대시보드 차트인데요. 생김새를 먼저 보여드리겠습니다.
이렇게 생긴 차트를 ‘코드 다이어그램’이라고 합니다. 변수 간의 연결관계를 표현하는 동시에, 각 변수 별 데이터를 직관적으로 확인할 수 있다는 장점이 있습니다.
웹사이트 이용자의 행동을 분석해 상품 별 관련성을 찾아주는 빅인 솔루션의 경우, 코드 다이어그램 차트를 통해 기준이 되는 상품 (A 상품)과 관련 있는 상품들을 연결 짓고 시각화합니다.
드릴다운을 통해 계층을 이동해보겠습니다. ‘클릭해서 더 보기’를 클릭해, A 상품과 관련 있는 상품들만 따로 모아볼 수 있습니다. 그리고 해당 상품을 구매할 가능성이 큰 잠재고객 목록을 조회할 수 있습니다.
데이터를 직관적으로 보여주기 위해 시각화하는 방안이 아주 다양하다는 사실을 말씀드리고자 빅인 솔루션 사례를 보여드렸습니다.
데이터 시각화 자료를 볼 수 있는 웹사이트
끝으로 데이터를 시각화한 자료를 볼 수 있는 웹사이트 두 곳을 알려드리겠습니다. 더 많은 사례와 차트의 쓰임이 궁금하신 분들은, 아래 사이트를 참고하시면 도움이 될 것입니다.
① 공공데이터 포털사이트
행정안전부에서 제공하는 서비스인 공공데이터 포털사이트(www.data.go.kr)인데요. 국민이 쉽고 편하게 공공데이터를 이용할 수 있도록 한다는 취지의 웹사이트입니다. 메뉴바의 ‘활용사례’ 탭에서 ‘공공데이터 시각화 자료’를 보시면, 다양한 분야에 걸친 공공데이터 시각화 자료를 보실 수 있습니다.
② 통계지리정보서비스
통계청에서 제공하는 통계지리정보서비스(sgis.kostat.go.kr)에서도, 국내 지역별 데이터를 확인할 수 있습니다. 인구, 주거, 복지 등의 정보를 지도 위에 나타낸 다양한 시각화 자료들을 통해 찾아볼 수 있습니다.
글을 마치며
이상으로 데이터 리터러시의 개념과 하위 역량, 그리고 데이터 시각화까지 살펴봤는데요. 데이터는 4차 산업혁명의 원유라고 불릴 정도로 필수적인 존재가 됐습니다. 데이터 중심 사회에서 경쟁력을 지니기 위해서는 데이터 리터러시 역량을 갖춰야 합니다.
그리고 데이터 시각화는 공들여 수집하고 가공한 데이터에서 인사이트를 뽑아내기 위해 필수적인 단계입니다. 그리고 시각화된 데이터, 즉 차트나 그래프는 신문 기사/뉴스에서도 자주 볼 수 있을 만큼 우리 삶과 밀접하게 연관돼 있습니다. 데이터 분석가가 아니더라도 데이터 시각화 역량이 필요한 이유입니다.
다양한 차트의 유형을 파악해야 데이터를 오류 없이 해석할 수 있습니다. 여러 차트를 꾸준히 접해봐야 데이터 시각화를 통해 전달할 메시지가 무엇인지 명확하게 알 수 있습니다.
이번 글이, 독자분들께서 산업 환경을 고려하는 사고방식을 지니는 것과 더불어, 데이터 해석 역량과 시각화 역량을 갖추는 시작이 됐기를 바랍니다.