본문 바로가기
일상리뷰/일상기록

데이터 분야 입문자를 위한 용어, 개념 친숙해지기

by 셀림 2021. 3. 21.
반응형

데이터 사이언스 분야 직군 크게 분류 : 데이터 분석가Analyst, 데이터 엔지니어, 데이터 과학자. 데이터분석가와 엔지니어를 합친 개념이 데이터 과학자라고 한다. 기업의 규모가 작을 수록 정해진 업무가 딱히 없고 상황에 따라 다양한 업무를 모두 해야 한다고 한다. 

- 데이터 분석가: 데이터를 수집(SQL-> Python/R), 분석 및 시각화(Python, R)를 하여 회사의 의사결정을 돕는 역할. 혹은 타 부서에게 정제된 데이터와 분석한 자료를 제공하는 역할도 한다고 한다. 실제로 지저분한 데이터를 정리하고 데이터를 효율적으로 산출하기 위해서 데이터 베이스의 구조를 효율화하는 일이 업무의 많은 부분을 차지하는 경우도 많다고 한다. 예를 들면 데이터 분석을 통해서 2차적으로 계산해 낸 요인 중 중요한 부분을 데이터 베이스 안에 집어넣는 등의 일을 한다. 사실 현업을 하면 구글 에널리틱스나 엑셀, Flourish 같이 비교적 더 직관적인 툴도 쓸 일이 있을 것 같다..

가설을 잘 세우고 검증하는 역할을 해야 하기 때문에 단순히 기술적인 부분만 잘 아는 것 뿐만 아니라 노이즈가 많이 끼어있는 데이터를 단순화하고, 재 구조화를 잘하고, 도메인 지식을 이용해서 잘 해석하고, 궁극적으로는 답을 도출하는 능력이 있어야 하고, 문제 해결을 위해 어떤 분석을 어떤 상황에 왜 해야 하는지에 대한 이해도 잘 되어있어야 하는 것 같다.  수학/통계적 지식과 통계 분석 경험을 바탕으로 머신러닝/딥러닝/데이터 마이닝등을 수행할 능력이 있어야 한다. 그렇기에 구직을 할 때 코딩 테스트를 본다고 한다. 

*여기서 도메인 지식은? 데이터의 내용적인 부분의 전문 지식을 의미하는 듯. 예를 들면 마케팅 데이터를 분석한다면 마케팅 분야의 지식과 경험.

구체적으로 '모델'과 '알고리즘'을 만든다는데, 이것이 구체적으로 무엇을 의미하는 지는 아직 잘 모르겠다. 뭔가 기존 데이터를 통해서 분석 모델을 만들고 이를 자동화하는 알고리즘을 짜놓으면 새롭게 나오는 데이터도 그 틀에 넣는다는 의미인가? 업데이트 예정!

- 데이터 엔지니어 : 대용량 데이터를 효율적으로 수집 후 관리하는 업무라고 한다. Hadoop, MapReduce, SQL등을 쓴다고 한다. 구체적으로, 로그 파일 형태로 들어있는 데이터를 숫자, 문자 등의 식별 가능한 데이터로 변환해주는 과정에서 필요한 변환, 추출 과정 등의 순서적 과정을 짜는 (파이프라인을 구축한다고 표현하는 듯) 업무를 한다고 한다. 

생각해보니 데이터를 수집하는 과정 자체가 창의적이고 효율화를 많이 요구하는 일이 될 수 있을 것 같다. 회사 입장에서는  데이터 분석 부서를 만들기 전에 회사가 쉽게 접근할 수 있는 데이터 베이스 부터 구축해야 할 텐데, 다양한 차원으로 어지럽게 존재하는 로우 데이터들을 다루기 쉽게 변환해서 정해진 틀로 저장해 놓는 과정이 사실 더 필요하겠지?

SQL: 데이터 베이스를 다루는 툴 (참고로 미국에서는 왜 그런지 모르겠는데 [시퀄]이라고 발음한다.). 엑셀 처럼 행렬 데이터가 기본인데 엑셀이 감당해내기 버거울 정도로 큰 규모의 데이터를 효율적으로 저장하고 내가 필요한 데이터만 잘 뽑아서 파이썬 등의 툴로 불러오는 툴이다. .csv등의 행렬 데이터로 불러 온후 파이썬 등에서 처리하는 식으로 일처리를 하는 것 같다. 

데이터 분석 언어, 툴 - Python, R : 통계 분석을 해주는 면에서는 두 툴 모두 비슷한 기능을 해낼 수 있으나 확장성이나 대중성면에서 요즘 더 대세인 언어는 파이썬이다. 파이썬이 통계 분석 뿐만 아니라 여러 분야에서 해낼 수 있는 기능이 더 다양하다. 나도 둘다 어설프게 배웠을 때 부터 파이썬이 훨씬 간결하고 가벼워서 좋았다. 

<알면 좋은 학습/준비용 리소스>

Kaggle (캐글)- 미국 웹사이트인데, 데이터 분석과 관련된 수상대회 및 연습 툴을 제공해준다. 캐글 대회에서 상위 10% 안에 들거나, 우승하거나, 꾸준히 좋은 성적을 보여서 웹사이트에서의 레벨에 높아지거나 하는 경우 취업에 매우 유리하다고 한다. 경력이 없는 경우 실력을 입증할 수 있는 수단이 된다. 그 뿐만 아니라 캐글에 업데이트 되어있는 코드를 필사하거나 돌려보면서 학습하는 용도로도 쓰인다.

Coursera, Udemy, Udacity, edx: IT, 코딩 관련 지식 교육 웹사이트. 이중 가장 대표적인 사이트가 Coursera이다. Udemy는 할인을 자주해서 유효기간없는 인강을 10달러대로 대부분 구매할 수 있다. 모두 영어로 되어있다. 

Bootcamp- (보통) 유료로 2-3달 동안 온라인 혹은 오프라인으로 직업 교육을 시켜주는 것을 의미한다. 미국은 IT 분야 취업을 위한 부트캠프가 많다.

인프런 - IT 쪽 강의를 수강할 수 있는 한국 웹사이트인데 가격이 대부분 10만원 아래로 저렴하다. 무료강의도 있다. SQL을 처음으로 배우기 위해서 제코베라는 분의 무료 실습 강의를 들었는데 아주 마음에 들었다.   

국비지원교육- 현장 강의를 원한다면 자격 요건이 되는 경우 한국 정부에서 국비지원 교육을 받을 수 있다. 풀타임 6개월 과정으로 수강하면 심지어 전액 무료 교육을 받을 수 있다. 단과 수업이나 구직자 교육은 한달에 10만원 정도로 현장 강의를 수강할 수 있다. 코딩 수업은 컴퓨터로 직접 실습하며 실수를 고쳐가면서 하면 좋기 때문에 현장 강의도 괜찮은 것 같다. 

구글검색, 수많은 유튜버, 블로거, - 요즘 빅데이터 분야에 대한 관심이 뜨겁다보니 공개된 자료가 정말 많다. 

stackoverflow - 코딩하다가 막혔을 때 구글링 하면 주로 나오는 미국판 지식인 같은 사이트이다. 여기서 어떻게 하라는 걸 복사 붙여넣기 해서 고쳐서 쓰는 식으로 문제 해결을 많이 한다.

반응형