데이터 이야기

데이터 사이언티스트에게 필요한 3가지 역량(가능할까?)

inhovation 2022. 8. 23. 12:50

데이터 사이언티스트. 영어로는 Data Scientist. 몇 년 전부터 뜨는 직업군이다. 얼마 전, 아는 교수님과 오랜만에 통화 하면서 근황을 물으셔서, 내가 있는 곳과 하는 일을 말씀드리니, "너가 바로 데이터 사이언티스트구나~?!" 라고 하셨다. 그래서 나는, "뭐 그렇게도 볼 수는 있는데, 저는 남들한데 그냥 그렇게 얘기하긴 좀 어려워서, 데이터 전문가, 데이터 분석가 라고 이야기 해요." 라고 답했다.

 

데이터 사이언티스트? 개념이 뭔가 어렵기도 하고, 여러가지 개념이나 정의가 있지만, 이것저것 종합해보고 내가 생각했을 때, 데이터 사이언티스트는 아래 세 가지 역량만 있으면 된다고 생각한다. 물론, 인터넷 찾으면 나오는 말들과도 비슷하다.

 

1. 도메인 지식

도메인 (domain)이란 인터넷에서 말하는 "그런 도메인"이라기 보다는, 영어 사전의 뜻에 있는 "영역, 범위" 라는 의미로써 사용한다. 각 비즈니스 영역에 해당하는 지식이라는 것이다. 의료 데이터라면 의학적 지식, 쇼핑몰 데이터라면 마케팅과 관련된 지식, 은행 데이터라면 금융이나 경제적 지식 등등이 필요할 것이고, 이걸 도메인 이라고 부른다. 쉽게 말해, 자기가 다루고 있는 데이터가 뭔지, 데이터 관점에서가 아니라 실제 업무 영역 관점에서 그 데이터의 속성과 특성이 무엇인지 알아야 하는 그런 지식이다. "데이터 만, IT 만" 하는 사람들은 이런 것이 약하다. 다는 아니겠지만, 일반적으로 "개발자"는 이런 것을 잘 모를 수도 있다. 그래서 그 중간에 연결고리 역할을 하는 사람이 있어서 고객의 니즈를 개발의 언어로 설명하여 개발자에게 설명하기도 하는 사람이 있기도 한다.


요즘에는 이 도메인의 경계도 많이 허물어지기도 하고, 융합이 뜨면서 하나의 도메인 지식만 갖고도 성공(?)하기 힘들다. 풀 스택 개발자가 각광을 받는 것 처럼(?) 여러 도메인을 두루 아는 사람이 필요한 시대가 오는 것 같기도 하다. (여기저기 굴려먹으려고...?)

 

 

 

의료 데이터 전문가가 되기 위한 3가지 방법

부제 : 의료 데이터 전문가가 되려면 어떤 전공을 해야 하나요? 현재 나는 의료 데이터 전문가로 일하고 있다. 공공기관에서 데이터 큐레이터로 일하다 작년에 이직했다. 이제 막 생겨나고 있어

inhovation.tistory.com

 

2. 컴퓨터 및 프로그래밍 역량

데이터 분석을 하려면 데이터를 다뤄야 하는데, 해 본 사람은 알겠지만 이게 진짜 방대하다. 수집, 관리, 분석 등등 데이터와 관련된 어머어마한 일들이 있는데 이걸 단순히 엑셀 하듯 하는게 아니다. 때에 따라서는 DB설계에 대한 것부터 시작해서 SQL 쿼리도 날리는 등 다양한 컴퓨터 지식이 필요하다. 그리고 데이터 전처리와 분석을 하기 위해서는 최소 1개 이상의 프로그램을 전문적으로 다룰 수 있어야 한다. 유경험자들은 폭풍공감 하겠지만, 엑셀로 수집한 데이터는 더 말할 것도 없고, DB에서 추출한 데이터라도 쓰레기 같은게 진짜 많다. 그래서 데이터 클렌징이 필수인데, 이걸 엑셀만 가지고, 피벗만 좀 한다고 해서 되는게 아니다. 가능은 하겠지만, 효율이 떨어지고, 롱 런 하기 힘들다. 그래서 R이든 Python이든 뭐가 됐든 프로그래밍도 잘 해야 한다.

Unsplash.com

3. 수학 및 통계적 지식

수학 및 통계적 지식은 데이터 분석을 위한 기본적인 연구방법론과 통계모형에 대한 것이다. 간단히 예를들면 회귀분석부터 시작해서 복잡하게는 머신러닝과 딥러닝 등등을 포함할 수 있겠다. 단순히 표 만들고 차트 만들고 하는 정도로는 데이터 사이언티스트라는 이름이 조금 과한 면이 있는 것 같다. 적어도 데이터 사이언티스트라면 머신러닝이나 딥러닝까지 되면 좋겠지만, 조사방법론 등에서 이야기하는 통계방법론 몇 개는 알고 실제로 연구 분석도 할 수 있어야 할지 않을까 싶다.

 

 

데이터 큐레이터가 될 수 있었던 3가지 이유

부제 : 나는 어떻게 데이터 큐레이터가 되었나? 사실 이번 제목에 '데이터 큐레이터' 대신에 '빅데이터 큐레이터'라고 할까 했었다. 내 명함에 박힌 이름이 '빅데이터 큐레이터'이기 때문이다. 그

inhovation.tistory.com

 

그렇다면 나는 데이터 사이언티스트인지 반문하면, 좀, 뭐 그렇다고 할 수도 있고, 애매하기도 하고, 뭔가 딱, "저는 데이터 사이언티스트입니다."라고 하기에 살짝 부끄럽다. 위에 나열한 1, 2, 3에 대한 자격이나 역량, 요구 수준이 이정도는 되어야 데이터 사이언티스트라고 할 수 있다는 객관적인 기준이 없기 때문이다. 그래서 예전에는 회사에서 나를 데이터 큐레이터 (data curator)라고 하기도 했고, (얼마전에 탈퇴 했는데) 링크드인에는 데이터 스페셜리스트 (data specialist)라고 기재해 놓기도 했었다. 데이터 전문가 정도. 그런데 다른 사람에게 나를 소개할 때에는 간단하게 데이터 분석 업무를 담당한다고 한다. 데이터 쪽 사람이 아니면 사이언티스트, 큐레이터, 스페셜리스트, 분석가, ... 이 모든 게 사실 큰 의미 없고, 데이터쟁이(...)정도이기 때문이다.

 

아, 마지막으로 한 마디. 전에 국제기구에 계신 데이터 전문가(...?) 박사님을 만난 적이 있다. 그분 왈, 세상에 이런 세 가지를 모두 잘하는 데이터 사이언티스트는 존재하기 힘들다 하셨다. 마치 유니콘 같은 존재라고. 그래서, 회사 안에서 이런 인재를 갖고 싶으면, 시장에서 채용을 하려고 하는 것 보다, 한두 가지를 잘 하는 내부 직원 중에서 적극적인 직원을 성장시켜서 이런 데이터 업무를 주는 것이 더 빠를 수 있다는 말을 들은 적도 있다. 엄청 공감이 갔었다.  끝.

반응형