1. “대선 ‘마이너리티 리포트’, 유승민‧심상정 많이 뽑은 곳은?”
2. “상세 지도로 보는 대선 표심, 서울 압구정동, 홍준표에 몰표”
3. “특수학생 2837명 서울 8개 구, 특수학교는 0”
4. “고위 공직자들이 사랑하는 동네는?”

김승범 VWLAB(브이더블유랩) 소장이 중앙일보와 협업해 작성한 기사다. 첫 번째와 두 번째 기사는 지난 5월 대선 결과를 지역별로 분석한 것이다. 세 번째는 지난 9월 특수학교 설립을 반대하는 일부 학부모들이 부른 논란과 관련해, 서울에 위치한 특수학교를 지도로 보여주는 기사다. 네 번째는 고위 공직자들이 보유한 건물을 전국 지도에 나타내고, 어떤 지역에 몰려있는지를 보여준 기사다.

▲ 김승범 소장이 데이터 시각화를 한 중앙일보 기사 중 일부.
▲ 김승범 소장이 데이터 시각화를 한 중앙일보의 기사.
김승범 소장은 16일 서울 강남구 ‘구글캠퍼스 서울’에서 열린 미디어오늘과 데이터저널리즘코리아, 구글코리아가 공동 주관한 ‘데이터 저널리즘 코리아 컨퍼런스’에서 데이터를 지도로 옮기는 작업을 할 때 만날 수 있는 시행착오를 공유했다.

우선은 형식이 들쑥날쑥한 데이터들이다. 데이터를 모두 모아 엑셀 등에 모아뒀을 때, 형식이 달라 표가 깨지는 경험은 누구나 겪어봤을 것이다. 그렇기에 김 소장은 이런 형식들을 통일해 정리하는 일이 최우선이라고 말했다.

한국의 주소명은 법정동, 행정동, 도로명까지 세 가지 표기 형식이 있기에 이 작업에 시간이 걸린다. 법정동과 행정동은 같은 경우가 많지만 행정동이 조금 더 세분화된 주소다. 예를 들어 ‘목동’의 법정동은 ‘목동’이지만, 행정동은 ‘목1~5동’인 식이다.

김 소장은 이렇게 모두 다른 주소 형식을 법정동으로 통일하는 일이 먼저라고 한다. 김 소장은 “보통 주소를 입력할 때, ‘읍면동’ 정도만 의식해서 입력하지만, 지도로 제대로 나타나게 하려면 ‘읍면동’뿐 아니라 ‘가, 로, 리’까지 알아야 한다”며 “제대로 확인하지 않고 입력하면 데이터를 지도로 나타냈을 때 바다 한가운데 학교 위치가 찍히는 불상사가 발생하기도 한다”고 말했다.

▲ 김승범 VWLAB 소장.  사진=이치열 기자 truth710@
▲ 김승범 VWLAB 소장. 사진=이치열 기자 truth710@
데이터의 주소가 지금은 쓰지 않는 과거의 명칭이거나, 줄임말이거나, 띄어쓰기가 잘못돼있거나, 입주 전인 건물일 경우도 지도에 옮기기 어려운 경우라고 한다. 이렇게 잘못된 주소나 불완전한 주소를 알고 있을 때, 김 소장은 ‘국토교통부 실거래가 공개시스템’ (http://rt.molit.go.kr/) 등에서 주소를 검색하면 정확한 주소를 알 수 있다.

김 소장은 데이터를 이용해 기사를 작성할 때 가장 중요한 것은 ‘인내심’이라고 강조했다. 김 소장은 “어떤 정제된 데이터가 만들어지는 과정에서, 사람이 직접 입력하는 과정이 포함됐다면, 꼼꼼한 검증이 필요하다”며 “데이터 저널리즘에는 1%의 기술과 98%의 인내심이 필요하다고 생각한다. 나머지 1%는 아직 모르겠다”고 말했다.

이어 김 소장은 “데이터 저널리즘의 과정은 노동집약적”이라며 “하나하나 검증을 하는 과정에서 힘이 드는 경우가 있지만, 이 데이터 하나하나가 개별성을 가지는 건물 혹은 사건이라고 생각하고, 그 개별성에 대한 존중이라고 생각하면 집중할 수 있게 된다”고 조언했다.

김 소장은 부동산 관련 데이터를 검색할 때는 ‘공공데이터포털 부동산 종합 정보’(http://openapi.nsdi.go.kr/nsdi/common/gonggan.do)를 사용하거나, ‘대한민국 행정동 경계 파일’(https://github.com/vuski/admdongkor) 등을 둘러보라고 제안했다.

저작권자 © 미디어오늘 무단전재 및 재배포 금지