본문 바로가기

카테고리 없음

데이터 저널리즘을 위한 컴퓨터공학과 복수전공? 파이썬?

나는 언론정보학과, 소프트웨어융합학과를 다전공으로 이수하고 있다.

기자가 되고 싶었고 그러다, 데이터로 사람 사는 세상을 이야기하고자 코딩공부를 시작했다.

체계적으로 데이터, 코딩을 배우고 싶어서 소프트웨어융합학과(데이터사이언스) 복수전공까지 하게 됐다.

다전공하기 전의 기대와 이후의 소회를 알려드리려고 한다.

데이터 저널리즘에 관심있어서 컴퓨터공학과를 비롯한 IT학과를 다전공하려는 분들께 도움이 될 것 같아요.

 

 

목차

0. 소프트웨어융합학과 다전공 계기

1. 일반적인 데이터의 의미

2. '데이터 사이언스'에서의 데이터

3. '데이터 저널리즘'에서의 데이터

4. 데이터 저널리즘을 위한 컴퓨터공학과, 소프트웨어융합학과 복수전공 ..?

 


 

0. 소프트웨어융합학과 다전공 계기

 

이제는 지겨운 단어 '빅데이터'

내가 처음 '빅데이터', '데이터 저널리즘'을 접했을 때는 2015년이다.

대학교에 입학하고 남들과는 다른 기자가 되겠다며, 나만의 무기를 고민하다 '데이터'를 떠올렸다.

여기저기 특강을 듣고 자문을 구하다가, 2016년 7월 군대에 갔다.

 

병장을 달 즘에 'Python, html/css' 공부를 시작했다. 

데이터 저널리즘을 하고 싶었고, 향후 10년은 어떻게든 살아도 그 이상은 코딩이 필요하다고 생각했다.

업계의 데이터 저널리즘에 대한 기대와 달리, 데이터 저널리즘도 큰 빛을 발하지 못했나 보다.

데이터 저널리즘팀이 '생겼다사라졌다'하고, 별도의 공채가 진행되지 않는 것으로 내린 결론이다.

 

정기공채가 진행되지 않는데 '데이터 저널리즘'만 바라볼 수만은 없었다.

데이터 저널리즘, 그로서리 마케팅, 개발자 등 진로를 다양하게 열어두고 코딩을 시작했다.

본전공이 IT관련 학과가 아니다보니 코딩을 할 시간이 자꾸 줄어들었다.

코딩에 많은 시간을 투자하고 체계적으로 배우고 싶어서 소프트웨어융합학과 다전공을 신청했다.

 

다전공하면 뭐라도 '데이터 저널리즘'에 도움되겠지

 

IT에 대한 '무지(無知)'를 커리큘럼에 대한 '막연한 기대'로 바꿔왔다. 공부를 안 한 것이 아니다.

구글링, 질문을 통해 소프트웨어융합학과를 조사했지만 그래도 잘 와닿지 않았다.

그 당시의 선택에 후회하냐고 물으면, 'No'다. 엄청 공부를 했기 때문에 지금에서야 깨달을 수 있었다.

다전공을 하지 않았다면 이해하지 못했을 것이다.

 


 

1. 일반적인 데이터의 의미

 

요즘 어떤 수업이든 '빅데이터'를 조금씩은 다뤘을 것이다.

OT시간에 보통 '데이터, 정보, 지식의 차이를 아냐'며 수업을 시작한다.

 

데이터: 기록된 사실

정보: 데이터 중에서 '의미가 있는' 것

지식: 정보가 '체계'를 갖춘 것 

출처: 위키백과

사람에 따라 조금씩 차이를 가지지만 일반적으로 데이터, 정보, 지식 순으로 넓은 의미를 가진다.

 


 

2. '데이터 사이언스'에서의 데이터

데이터 사이언스 관련 강의 OT에서 '21세기 가장 섹시한 직업: 데이터 사이언티스트'라는 하버드대학교의 발표자료를 보여준다. 데이터 사이어니스트들이 하는 데이터 마이닝, 데이터 분석, 머신러닝, 딥러닝 등에는 어떤 데이터가 쓰일까?

 

     자연어, 이미지, 로그, 구매이력, 금융, 영상, 음성

 

비교적 새롭게 부상한 (빅)데이터 분석과 전통적인 통계분석이 무슨 차이가 있는지 처음엔 잘 몰랐다. 

지금도 언어로 정확히 정의내리라고 하면 하기 어렵지만, 상황에 따라 분류를 할 수는 있다.

 

통계에서는 p-value, t-value, 표준점수가 쓰인다. 통계학은 모집단에서 추출한 표본으로, 모집단을 예상하는 학문이다. 전수를 조사하려면 비용, 시간이 많이 들기 때문에 표본으로 모집단의 특성을 예측하는 것이다. 

 

사람의 키를 0 ~ 3m라고 하면, 신뢰구간 3m에 신뢰도는 100%다. 그런데 이런 통계는 의미가 없다. 누구나 사람의 키는 0 ~ 3m 사이라고 알기 때문이다. 신뢰구간을 1 ~ 2m로 좁혀 유의미한 범위를 만들면 신뢰도를 조금 손해보게 된다. 간혹 2m가 넘는 사람들이 있기 때문에 1 ~ 2m는 0 ~ 3m에 비해 부정확한 예측이다.

모집단, 표본, 출처: 통계청

데이터 사이언스의 (빅)데이터 분석은 기본적으로 가지고 있는 데이터 '전부' 사용한다. 학습데이터, 검증데이터로 나누긴 하지만 검증데이터도 결국 데이터 분석의 결과인 모델을 더 우수하게 만들기 위함이다. 

 

이미지로 된 손글씨 데이터가 '1, ..., 10'이 있으면, 모델에 '이런 이미지를 가진 데이터가 X를 의미한다'고 데이터 중 일부(학습데이터)로 학습시켜준다. 남은 데이터(검증데이터)로 예측값과 실측값을 비교하여, 모델의 정확도를 파악한다. 이런 분석은 기존의 통계학으로 하기 힘들다. 

 

 

이미지, 자연어도 알고보면 [[0 1 0 1 1 0], [1 1 1 1 1 1], [0 0 0 10 1]] 이런 식의 수치데이터로 저장되어 있다. 이미지, 자연어를 숫자로 표현했으니 이런 것을 몇십만 장되는 것을 분석하려면 엄청난 연산처리능력, 시간이 필요함을 예상할 수 있다.  그래서 하드웨어의 발전, GPU의 재발견 등에 힘입어 '데이터 사이언스, 빅데이터'가 뜬 것이다. 빅데이터 분석이 수지타산이 맞기 시작하여 현업에 이용할 이유가 생겼기 때문이다.

이미지 데이터 구조, 출처: https://www.slideshare.net/jaewonlee79/rgb-data

 


 

3. '데이터 저널리즘'에서의 데이터

한국에서 데이터 저널리즘, (빅)데이터 분석 및 데이터 사이언스가 본격적으로 등장한 시점은 2015년 즘으로 같다. 그런데 데이터 저널리즘이 말하는 데이터와 데이터 사이언스가 말하는 데이터는 다른 것 같다.

 

1) 데이터마이닝을 데이터 저널리즘으로..

기자를 지망했던 언론정보학과 학부생이 소프트웨어융합학과 데이터사이언스 트랙을 타면서 느꼈다. 

'데이터 사이언스(고객관계관리), (고급)데이터 마이닝, 웹/파이썬 프로그래밍' 등 전공과목을 들으면서

 '데이터 저널리즘과 어떻게 연관시킬 수 있을까' 고민했다. 

 

결론은 '이거 안 되겠는데?' 싶었다. 머신러닝, 딥러닝으로 주로 '예측, 회귀'분석을 한다.

예측: 저체중, 정상체중, 과체중, 비만과 같은 카테고리 변수로 예측하는 것

회귀: 몸무게 같은 수치형 데이터로 예측하는 것

사실 기반으로 적어야할 기사를 '학습데이터가 이랬으니 결과는 이럴 것입니다'하고 적는 게 말이 되나..

 

편집장: 2030년 서울시민의 비만율이 40%라고 결론을 내린 이유가 뭐야?
유사 데이터저널리스트: 모델이 그렇다는데요?
편집장: ...

 

'데이터로 학습시켜 자동으로 기사를 쓰는 알고리즘'은 데이터 저널리즘이라고 생각하지 않는다.

'데이터를 활용한 기사, 콘텐츠'를 데이터 저널리즘이라고 생각한다.

그런데 '내가 생각한 데이터'와 '현업 데이터 저널리즘의 데이터'가 달랐다.

 

 

2) 언론사가 쓰는 데이터 저널리즘

 

 

뉴스래빗 - 데이터저널리즘 기사

뉴스타파, 한국경제 뉴스래빗, SBS 마부작침, KBS 데이터룸에서 작성한 기사를 보면, 데이터 마이닝에 기반한 기사는 없다.

 

'2. 데이터 사이언스에서의 데이터'에서 언급한 데이터와는 거리가 멀다. 오히려 '1. 일반적인 데이터의 의미'에 훨씬 가깝다. 한국사회와 관련된 '기록된 사실'로 기사를 쓰고, 인포그래픽 등으로 더 보기 좋게 시각화하여 정리했다. 머신·딥러닝 분석 결과로 쓰인 것은 없다.

 

공공데이터가 개방됐다. IT기기의 발달로 GPS, 구매이력 등 다양한 데이터가 생겼기 때문에 데이터 저널리즘 ·사이언스가 가능해진 시기가 같았을 뿐이다. '데이터'라는 단어는 같지만, 의미는 다르다.

 

 


 

4. 데이터 저널리즘을 위한 IT 관련 학과 복수전공 ..?

 

'오로지' 데이터 저널리즘을 위해 IT 관련 학과인 컴퓨터공학과, 소프트웨어융합학과를 다전공한다?

비추천한다.

데이터 저널리즘에 필요한 코딩 지식은 학과 커리큘럼의 일부에 속한다. 배보다 배꼽이 큰 상황이 벌어진다.

학점은 학점대로 떨어지고, 언론고시 공채 준비할 시간은 없고, 스트레스는 스트레스대로 받는다.

 

단 데이터 저널리즘도 관심 있지만, 굳이 이 길이 아니더라도 다른 IT 분야로 진출하고 싶으시면 추천드립니다.

난 이 케이스에 속한다. 저널리즘의 패러다임을 바꾸겠다며 코딩을 시작했지만, 데이터 저널리즘이 아니어도 좋다!

 

학점은 떨어지고, 인적성 준비할 시간은 없고, 학업기간이 늘어나 힘들고...

하지만 할 수 있는 영역이 많아졌음에 상당히 만족한다.

 

'스미싱 문자와 관련된 피해사례를 통계로 기사를 쓰기'보다, '내가 받은 문자가 스미싱 문자인지 알 수 있는 웹 서비스'(https://github.com/ehdrn463/smash_web)를 제공하고 싶다. 보통 현업에서는 전자 같은 형태로 한정되어 있는데, 나는 후자 같은 진짜 '빅데이터다운 콘텐츠'를 만들고 싶다.