개념 정리

[개념 정리] DE vs DA vs DS

DACHO 2020. 11. 6. 23:52
반응형

Intro

Wanted를 비롯한 각종 채용 사이트를 둘러보면 수많은 테크, IT기업들이 데이터 전문가 영입을 원하고 있다. 기업들은 '데이터 분석가, 데이터 엔지니어, 데이터 컨설턴트, 데이터 사이언티스트, 데이터 디자이너' 등 수많은 이름으로 그들을 부르고 있다. 이제 막 데이터 커리어에 관심이 생긴 이들은 채용 공고와 직a무기술서들을 열심히 읽어보지만, 그들의 뚜렷한 정의와 기준점을 알기가 쉽지 않은 것이 현실이다.

 

따라서 오늘 포스팅에서는 대표적인 데이터 커리어 데이터 엔지니어(DE), 데이터 애널리스트(DA), 데이터 사이언티스트(DS)에 대해서 알아보고자 한다. 비슷하면서도 다른, 다른듯하면서도 비슷한 그들의 정체는 과연 무엇일까?

 


데이터 분석 과정

셋의 차이를 이해하기 위해서는 데이터 분석 과정을 먼저 살펴보는 것이 도움이 된다.

 

데이터 분석은 일반적으로 '데이터 준비 → 이해 분석 시각화 스토리텔링'의 다섯 단계를 거친다. 데이터 분석은 무작정 데이터를 모아 시작되는 것이 아니다. 누군가 주제에 맞는 데이터를 정교한 모양으로 정제해줘야 하고, 이러한 데이터에 대한 정확한 이해를 바탕으로 데이터를 뜯고 찔러보고 뒤집고 합쳐보면서 분석하게 된다. 이를 통해 도출된 비즈니스 인사이트를 이해관계자들에게 공유하고 설득시키기 위해 시각자료를 만들고 스토리텔링을 할 수 있어야 한다. 

자세한 설명은 다음 포스팅을 참고 바란다. 

 

이러한 과정을 머릿속에 그리면서 데이터 엔지니어, 데이터 애널리스트, 데이터 사이언티스트의 차이는 무엇인지 살펴보도록 하자. 

 


데이터 엔지니어, Data Engineer, DE 

데이터 애널리스트와 데이터 사이언티스트를 위해 데이터를 준비한다. 

  • Data Architecture : 데이터 애널리스트들이 분석을 잘할 수 있도록 데이터 구조를 깔끔하고 효율적으로 만든다. 필요한 데이터만 담은 완벽한 데이터 테이블을 만들기 위해서 노력한다. 쇼핑몰에 축적된 데이터는 '사용자 데이터, 주문 데이터, 환불 데이터, 모바일 데이터, 데스크톱 데이터' 등으로 구조화할 수 있다. 

  • Data Pipeline : 원하는 데이터 도출을 위해 데이터 흐름도를 결정한다. 쇼핑몰에서 '모바일 사용 주문자' 데이터를 얻고 싶다면, 우선 모바일 데이터와 사용자 데이터를 결합해 모바일 사용자 데이터를 만들고, 최종적으로 주문 데이터를 함께 업데이트시켜 '모바일 사용 주문자' 데이터 테이블을 도출할 수 있다. 

  • Database Maintenance : 데이터 스키마(schema)를 명확하고 깔끔하게 관리한다. 지하철역 데이터 테이블에서 지하철 역명, 지하철역 사용자 수, 지하철역 위치와 같은 칼럼(column)이 아닌 엉뚱한 공항 관련 데이터 칼럼이 들어가 있다면 이를 없애주어야 한다. 

  • Data Quality : 데이터 퀄리티를 관리한다. '지하철역 사용자 수' 데이터 칼럼에는 문자나 기호가 아닌 숫자만 입력될 수 있도록 설정해주어 데이터의 퀄리티를 높인다. 

 


데이터 애널리스트, Data Analyst, DA

과거와 현재에 집중하는 분석을 한다. 

  • Reporting : 리포트를 통해 기업의 KPIs(Key Performance Indicators)를 업데이트한다. 어떤 KPI가 증가했다면 증가폭은 얼마인지, 얼마의 시간에 걸쳐 증가했는지, 그 이유는 무엇인지 등에 대해 리포트한다. 

  • Basic Statistics : 기초 통계 지식을 활용해 데이터를 분석한다. 

  • Root Cause Analysis : 문제의 근본 원인을 분석한다. 쇼핑몰 매출이 전년도에 비해 급락했다면 데이터 분석을 통해 그 근본적인 이유에 대해 설명할 수 있어야 한다. 

  • Visulization : 분석한 결과를 시각화하고 이해관계자들과 공유한다. 구글 시트, 대시보드(Data Studio, Tableau, Looker, etc.)를 활용할 수 있다.

  • Storytelling : 스토리텔링을 통해 비즈니스 인사이트를 이해관계자들에게 설득하고 의사결정을 돕는다. 떨어진 매출은 어떤 점에서 유의미한 것인지, 이를 다시 회복하기 위한 해결책에는 무엇이 있는지 제시하기도 한다. 구글 슬라이드 및 PPT를 활용한다.


데이터 사이언티스트, Data Scientist, DS

미래를 예측하고 모델링을 한다.

  • Complex Statistics : 심화된 통계 분석을 진행한다. 

  • Machine Learning : 머신러닝/딥러닝 알고리즘을 사용해 여러 데이터들을 분석하고 데이터 간 연관성을 찾는 등 인사이트를 발견한다. 

  • Prediction Model : 예측 모델을 개발한다. 정교한 예측 모델을 개발하여 쇼핑몰 소비자에게 적합한 제품을 추천할 수 있다면 매출 증가에 기여할 수 있다.  

  • Advanced Modeling : 고급 모델링을 한다. 쇼핑몰 제품의 상세 설명 페이지에서 이미지를 함께 제공하는 것이 소비 창출에 기여할 것으로 분석했다면, 기획자 및 프로덕트 매니저에게 그 연관성을 설명하고 이미지 정보를 업데이트할 것을 제안할 수 있다. 


Opinion!

우리는 지금 당장 이 셋을 구분하려고 애쓸 필요가 없다. 개인이 이를 명확히 구분한다 하더라도, 누군가와는 다르게 구분하고 있을 수 있다.

 

인간은 단어를 사용함으로써 필연적으로 세상을 구분하고 경계를 나누지만, 현실은 그렇게 쉽게 똑 떨어지지 않는다. 언어는 세상을 불연속적으로 바라보는 반면 현실은 연속적이기 때문이다. 우리가 무지개를 아무리 ‘, , , , , , ’로 나누어도 색의 스팩트럼 속에서는 그것이 불가능한 것처럼 말이다. 심지어 미국인들의 무지개에는 남색이 없다. 의심이 든다면 옛 애플 로고를 떠올려보자.

이처럼 우리가 '데이터 엔지니어, 데이터 애널리스트, 데이터 사이언티스트'라는 용어를 써서 역할을 나누지만, 실제 업무 환경에서는 데이터 엔지니어가 직접 데이터를 분석하고 스토리텔링 할 수도 있고, 데이터 애널리스트가 자신에게 필요한 데이터를 직접 준비하는 경우도 있다. 아니면 세 가지 역할이 다 가능한, 모든 색을 섞은 검은색 같은 사람도 있을 것이다. 특히나 아직까지 데이터 전문가 인력이 충분하지 않은 시장 현실에서는 더더욱 그러할 것이다. 그러니 지금 그 구분이 애매모호하다고 해서 머리를 싸맬 필요는 없는 것 같다. 업계 생태계를 직접 겪다 보면 언젠가는 점점 명확해질 것이 분명하지만 결국 칼로 자르듯 나누는 것은 불가능할 것이기 때문이다. 

 

중요한 것은 데이터 엔지니어, 데이터 애널리스트, 데이터 사이언티스트로서의 정체성은 지키되, 그들 사이에 존재하는 소통의 간극을 줄이고, 이해하려는 노력이라고 생각한다. 내가 아무리 실력 있는 '데이터 애널리스트'라 할지라도 데이터 가공과 아키텍처에는 전혀 관심이 없고 이후 모델링 단계에 대한 최소한의 이해도 하지 않으려 한다면, 업무의 효율과 효용은 물론 최고의 결과물을 기대할 수 있을까. 앞으로 나의 커리어 성장을 위해서도 이러한 태도는 필요하다고 생각한다.

반응형