Data science가 도대체 뭐야?
- 멘토
- [미국] 임성준
- 조회수
- 237
1편에서 언급했듯 나는 미국에서 대학을 나왔고 미국에서 첫 직장을 가졌다.
2편에서는 첫 직장에서 새로운 직장으로의 이직 과정을 설명했다.
3편에서 Tech의 메카이자 엔지니어가 가장 가고 싶어 하는 "실리콘 밸리" 생활에 대해 느낀 점
4편에서는 미국 이야기 보다 내가 하는 일에 대한 설명을 조금 하려고 한다.
코로나로 인해 더 많이 들을 수 있는 말 중 하나인 Untact 시대라는 말이 있다. Contact의 반대인 Untact는 대면접촉을 피하고 화상으로 대화를 하며 재택근무를 가능케하는 아주 좋은 기술임에 분명하다. 우리는 은행 업무를 보기 위해 ATM이나 은행에 직접 방문할 필요도 없으며 쇼핑을 즐기려고 휴대폰을 끄적이는 일은 이미 너무 익숙해서 전혀 낯설지가 않다. 빠르게 변화하는 시대는 분명 IT 기술이 필수이며 개발자의 역량이 매우 중요하다고 볼 수 있다. IT가 발전함에 따라 우리는 보이지 않는 수많은 데이터를 수집하고 이를 분석해서 새로운 기업의 가치를 창출하는 사업이 크게 각광을 받는 시대에 살고 있다.
초등학생도 한 번쯤은 들어봤을만한 빅데이터 시대에 도대체 데이터가 무엇이며 Data Scientist가 하는 일이 무엇인지 궁금해하는 사람들이 많이 있다. 반도체 회사에서도 인공지능 부서가 생기고, 금융권에서 AI 기술에 관심을 가지며 대표적 Data 기반 기업인 네이버와 카카오는 이미 누구나 가고 싶어 하는 최고의 기업이 되었다. 거기서 하는 Data Science 가 무엇이며 Data Scientist하는 일이 무엇인지 알아보자.
1. Data Science가 무엇이고 Data Scientist는 무엇을 하나요??
2014년 즈음 Google의 알파고와 한국의 이세돌의 바둑대결은 인공지능이 도래하는데 크게 이바지했음은 분명한 사실이다. 수많은 경우의 수를 계산하는 컴퓨팅 파워가 사람의 지능을 능가했다는 사실은 데이터 사이언스 전공자에겐 크게 놀라운 일이 아닐 수도 있지만 그 기간이 매우 빠르게 단축되었음에 놀랐을 것이다. 우리가 데이터를 분석하고 이를 실생활에 적용하는 일은 사실 오래전부터 있었던 일이다. 단순하게 수능 공부를 할 때 기출문제를 꼭 풀어봐야 하는 이유도 데이터 분석과 관련이 있다. 시험에 나올 확률이 높은 문제를 미리 보고 시험을 잘 볼 확률을 높여 왔으며 모르는 수학 주관식 문제를 0 또는 1로 찍어야 한다는 사실 역시 경험적 데이터를 기반하여 분석한 결과이다.
다만 현대 과학에서 Data Science는 인간이 계산하지 못하는 수많은 데이터를 빠르게 분석해서 Insight라는 결과물을 내놓기 때문에 신기해 보일 수 있다. 나도 내가 하는 일이지만 어떤 결과가 나올지 예측하고 분석하는 일은 정말 재미있고 나에게도 큰 일할 동기를 제공해 주기 때문이다. 데이터 사이언스를 알기 전에 꼭 먼저 집고 넘어가야 할 개념이 있다.
데이터 사이언스를 말할 때 가장 많이 언급되는 big data는 무엇인가? 실제 데이터 사이언스 직무 관련 면접에서도 수많은 면접관들이 물어봤고 나 스스로도 많은 검색을 해본 단어이다. 가트너에 따르면 3V라고 정의해 놓은 글이 있는데 그런 따분한 걸 내 블로그에 올리고 싶지 않다. 단순하게 말하자면 데이터에 패턴을 읽고 Insight를 얻어 낼 수 있는 Dataset을 빅데이터라고 생각한다. 필자의 생각이므로 본인 면접 때 써서 떨어지는 과오를 범하지 말자 그냥 그 정도로만 알아두면 맘이 편하다.
데이터 분석은 우리가 어렸을 때 과학실험을 했던 가설검증과 매우 흡사한 과정을 거친다. 말만 거창하지 이런 식이다.
1. 가설 설정 : 식물은 양지보다 음지에서 더 잘 자랄 것이다
2. 데이터 수집 : 실제 양지에서 식물을 길러보고, 음지에서도 길러본다
3. 결과 비교 : 3회 반복했더니 양지에 식물이 다 훨씬 잘 자랐다.
4. 가설 수정 : 식물은 양지에서 더 잘 자란다.
검증 -> 결론 수립
초등학교를 띄엄띄엄 다닌 탓에 이게 맞는지 모르겠다. 내가 하는 일의 순서는 위와 비슷하다.
1. 비지니스 문제 정의 (Data Driven)
2. 데이터 수집
3. 수집된 데이터를 활용하여 특정 수식을 만듦(모델링)
4. 우리가 만든 수식(모델) 평가
검증 -> 모델 사용
쓰는 말은 다르지만 그 과정은 흡사하다고 볼 수 있다.
이처럼 회사에서 겪고 있는 문제를 데이터 기반으로 해결하는 일을 하는 사람을 Data Scientist라고 부른다. 데이터를 다루는 일을 8~9년 정도 하다 보니 참 매력 있는 일이라는 생각이 들고 항상 주변 사람들에게 추천하는 직업 중 하나이다.
수학을 전공한 나에겐 더없이 좋은 일이고 업무의 특수성 역시 나의 업무 방식과 일치해서 나는 내일을 좋아한다. 수많은 블로그에 이미 많은 데이터 사이언스 자료가 있으니 이만 각설하고 데이터 사이언티스트가 되는 법과 장점에 대해 알아보자
2. 데이터 사이언티스트의 장점은 무엇인가?
내가 하는 일이라서가 아니라 정말 데이터 사이언티스트는 가치가 있고 재미있는 일을 많이 한다. 회사의 단순 반복 업무보다는 생각을 많이 하는 직업이기도 하고 지속적으로 발행되는 새로운 논문과 연구결과들을 접목하는 재미있는 분야이다. 하지만 난 단순히 재미만 있었다면 다른 일을 찾아봤을 수도 있었겠지만, 재미 이외에도 많은 메리트가 있다.
많은 회사가 AI를 도입하고 있고 Tech 기업의 가치가 기존의 공정 설비 회사의 가치를 뛰어넘는 시대이다. 한 예로 배달의 민족이 독일의 모 기업에게 5조 원에 인수되었다는 사실은 정말 충격이 아닐 수 없다. 이렇게 발전하는 AI 시대에서 Data Scientist의 가치도 덩달아 높아지고 있는 건 사실이다. 능력만 있다면 직장인의 꿈의 연봉인 억대 연봉을 30대 때 넘어서는 친구들도 많고 실직의 걱정 없이 다니는 몇 안 되는 직업이기도 하다.
수많은 기업들이 높은 연봉을 감수하더라도 능력 있는 Data Scientist를 고용하려 하는 시대에서 어쩌면 정말로 좋은 대우를 받고 있다고 생각한다 거품 꺼질 일도 얼마 안 남았다는 말도 많다. 꼰 x 회사로 알려진 전통 대기업 역시 Data Science 팀에게는 자율 출퇴근과 자율 복장을 실시하고 새로운 것을 배울 수 있는 세미나나 콘퍼런스 참여를 독려해 주는 배려도 서슴지 않는다. 또한 대부분 석, 박사 인력으로 구성되어 있어서 타 팀에서도 경력직이라고 무시하는 일이 드문 것도 사실이다. 사실 공채 아니면 무시하는 곳도 있다
이처럼 좋은 대우를 받고 있지만 실제 비즈니스에 적용되어서 직접적인 성과를 내는 팀이 아니기에 따가운 눈총을 종종 받기도 하나, 그건 감수할 만한 정도니 참고하자.
이 중에서도 나에게 가장 매력적인 점은 미국 기업과 업무 연결성이 매우 높다는 점이다. 내가 한국 기업에서 일한다고 해서 한국만의 특색을 가지는 업무가 아니기 때문에 해외로의 이직이 매우 자유롭다. 심지어 미국에 있다가 한국에 들어오기는 더 쉬우며 미국에서 일했다는 사유가 큰 장점이 되는 분야이기도 하다. 미국 취업을 원하는 친구들이나, 나처럼 한국과 미국 원하는 곳에서 일하고 싶은 사람들에게는 IT software engineer보다 더 높은 평균 연봉을 받으면서 선택적으로 일할 수 있는 아주 매력적인 직업임에 틀림없다.
3. Data Scientist가 되는 방법은 무엇인가?
수많은 기업들이 높은 연봉을 감수하더라도 능력 있는 Data Scientist를 고용하려 하는 시대에서 어쩌면 정말로 좋은 대우를 받고 있다고 생각한다 거품 꺼질 일도 얼마 안 남았다는 말도 많다. 꼰 x 회사로 알려진 전통 대기업 역시 Data Science 팀에게는 자율 출퇴근과 자율 복장을 실시하고 새로운 것을 배울 수 있는 세미나나 콘퍼런스 참여를 독려해 주는 배려도 서슴지 않는다. 또한 대부분 석, 박사 인력으로 구성되어 있어서 타 팀에서도 경력직이라고 무시하는 일이 드문 것도 사실이다. 사실 공채 아니면 무시하는 곳도 있다
이처럼 좋은 대우를 받고 있지만 실제 비즈니스에 적용되어서 직접적인 성과를 내는 팀이 아니기에 따가운 눈총을 종종 받기도 하나, 그건 감수할 만한 정도니 참고하자.
이 중에서도 나에게 가장 매력적인 점은 미국 기업과 업무 연결성이 매우 높다는 점이다. 내가 한국 기업에서 일한다고 해서 한국만의 특색을 가지는 업무가 아니기 때문에 해외로의 이직이 매우 자유롭다.
심지어 미국에 있다가 한국에 들어오기는 더 쉬우며 미국에서 일했다는 사유가 큰 장점이 되는 분야이기도 하다. 미국 취업을 원하는 친구들이나, 나처럼 한국과 미국 원하는 곳에서 일하고 싶은 사람들에게는 IT software engineer보다 더 높은 평균 연봉을 받으면서 선택적으로 일할 수 있는 아주 매력적인 직업임에 틀림없다.
3. Data Scientist가 되는 방법은 무엇인가?
주변 취준생 후배들에게 가장 많이 듣는 질문 중 하나가 Data Scientist가
되는 법이다. 한국은 미국만큼이나 Data Science 직군에
대한 역사가 짧고 성숙하지 못한 job market을 가지고 있기 때문에 사실 어떤 정확한 방법이 있는
게 아니다. 라떼(?) 만하더라도 데이터 사이언스 전공자가
없고 대부분 수학과 혹은 computer science, 통계학 전공자들이 많았다. 이전 Data Scientist가 없던 시절에는 학부생과 석사, 박사에 대한 경계가 없었으나 현재는 석사나 박사 인원들로 구성하는 추세이다.
나는 실제로 학부생, 석사 그리고 박사의 데이터 사이언스 실력 차이는 크지 않다고 생각한다. 내가 학부라서 그러는 건 아니다 워낙 새로운 분야이고 발전하는 분야이기 때문에 Quantative skill 과 약간의 코딩 능력이 있으면 누구나 진입이 가능하다고 생각한다. 하지만 기업에서 사람을 뽑을 때 실수를 덜기 위해 조금 더 특정 학문의 깊이를 경험한 석, 박사를 선호하는 것 역시 이해가 된다. 아무래도 Data Science가 다른 분야라 하더라도 한 분야를 깊이 있게 탐구해봤던 박사 출신에게 실패가 덜한 것도 부정할 수 없다. 그래서인지 몰라도 Data Scientist가 되기 위해 꼭 석, 박사를 해야 하는가? 하는 질문에 나는 "그렇다"라고 대답을 하곤 한다.
본인이 학부생임에도 불구하고 각종 데이터 경진대회에 입상한 경험이 있다면 필요 없을 수도 있지만 현실적인 이야기를 하자면 석사와 박사의 타이틀은 Data Science에 입문하기 위한 가장 빠른 지름길이라고 말해주고 싶다.
미국에서 데이터 사이언스 직군을 뽑을 때 학사와 석, 박사의 차이가 한국만큼 크지는 않지만 그래도 컴퓨터 사이언스로 유명한 U.C 버클리나, 카네기멜론과 같은 대학에서 Data Science 석,박사 코스를 개설한 걸 보면 아무래도 미국 역시 석사를 하는 게 좋지 않을까 생각한다. 나 역시 그 당시 Data Scientist가 되려는 생각이 있었다면 석사를 했었을 것이다.
아까 말한 실력과 학력은 관계가 없다는 말은 사실이다. 실제 우리 팀에서 학부만 졸업한 친구는 데이터를 잘 다루고 분석 결과도 항상 뛰어나다. 내가 자주 가는 rat's go 블로그를 쓰시는 분 역시 기자 출신이지만 스스로 공부해서 블로그를 운영하는 걸로 알고 있다. 그만큼 누구나 진입할 수 있는 분야이기도 하지만 진입의 과정을 본인의 커리어로 남기기는 학벌만 한 것이 없다. 기업은 레쥬메만 보기 때문에 진짜 너의 가치를 모른다
내가 하는 일에 대해 조금 더 멋지게 그리고 재미있게 묘사하고 싶었으나 다 쓰고 나니 매우 따분한 글이 되어있는 것 같아 마음이 아프다. AI에 관심 있는 초등학생에게 데이터 사이언스를 설명하는 것과 통계학 전공자에게 설명하는 수준이 다르듯 독자의 수준 이해 없이 그리고 두서없이 쓰는 글이라는 점을 감안해서 봤으면 좋겠다. 혹시라도 이 분야에 궁금한 취준생이 있다면 언제든지 연락하면 감사한 마음으로 답변드리도록 하겠다.