Make information accessible (kor)

Home > Think English > Bilingual News

print dictionary print

Make information accessible (kor)

On March 29, the assets of 2,249 high-level government officials were released. The government, the Supreme Court and the National Election Commission published the lists on the official gazette, and the National Assembly and the Constitutional Court included the data via press releases.

The Public Service Ethics Act requires high-level officials to register and release their assets. The purpose is to prevent unlawful accumulation of wealth and secure fairness in public duty.

It allows citizens to keep track of whether public servants unlawfully make money while doing government business or they prioritize personal interests over public interests.

On the day of the release, the JoongAng Ilbo provided readers aggregated data from different agencies online. I thoroughly reviewed who was included in the list of officials from the first to the 2,249th and whether there were any irregularities.

But the process was not smooth. The first obstacle was that the data was provided in a in PDF format. The strength of the format is the high security of the document, as it cannot be modified. But this is a merit from the supplier’s perspective. It is just the opposite in user’s point of view.

The document totaled 4,054 pages, and excluding the titles, there were 42,244 rows of actual data. In order to analyze the data, the tables in each document needed to be combined, but the portable document format (PDF) did not allow it. And spreadsheets cannot read PDFs. So, all of the files needed to be converted to comma-separated values (CSV), a format that spreadsheets can read. After the conversion, a problem remained.

The original tables were written in various formats, so they needed to be modified in order for calculations to be made.

Of course, there is a way. A computer program can be created so that the raw data can be cleaned up. That’s how the JoongAng Ilbo worked on the data.

But how many average citizens can do that? In the end, the PDF release of public servants’ assets means that citizens can read what they are provided with, but they cannot tamper with any of the information.

After all, there have been worse cases. I requested the Election Commission for information during the presidential election last year and received PDF files made from scanned documents. It was a picture, not a document. To use this kind of data, the only way was manual data entry.

In the so-called fourth industrial revolution era, it is nonsense to release public data in a PDF format that cannot be read by computers. Let’s give up on favoring the perspective of the supplier, unless the government intends on taking credit for merely releasing data.


JoongAng Ilbo, April 6, Page 30

*The author is a head of the digital contents lab at JoongAng Ilbo.

KIM HAN-BYEOL

지난달 29일 고위 공직자 2249명의 재산 내역이 공개됐다. 정부ㆍ대법원ㆍ중앙선거관리위원회는 관보에, 국회와 헌법재판소는 각자의 공보에 자료를 올렸다.
고위 공직자 재산 등록ㆍ공개는 공직자윤리법에 따른 의무다. “공직자의 부정한 재산 증식을 방지하고, 공무 집행의 공정성을 확보”하는 게 목적이다. 쉽게 말해 나랏일 한다며 부정 축재를 하진 않는지, 공익(公益)보다 사익(私益)을 앞세우지 않는지 국민이 감시하자는 것이다.
중앙일보는 재산 공개 당일 각 기관의 데이터를 한데 모아 독자에게 제공했다(news.joins.com/DigitalSpecial/280). 재산 순위 1~2249등이 누군지, 재산 내역에 이상한 점은 없는지 꼼꼼히 들여다봤다.
하지만 그 과정은 순탄치 않았다. 여러 문제가 있었지만 자료가 PDF 파일로 공개된 게 첫 번째 걸림돌이었다. PDF는 미국 어도비사가 1992년 개발한 국제 표준 문서 양식이다. 윈도 PC나 맥 등 어떤 컴퓨터에서 보든 같은 모양으로 보이는 게 특징이다. 작성된 문서를 수정할 수 없어 보안성이 높은 것도 장점으로 꼽힌다. 하지만 이는 철저히 ‘공급자 관점’에서 그렇다는 거다. ‘사용자 관점’에 보면 정반대다.
이번에 공개된 공직자 재산 내역은 A4지 4054장 분량이다. 제목 등을 빼고 실제 데이터가 담긴 표 부분만 따져도 총 4만2446행이나 된다. 이런 방대한 데이터를 분석하자면 일단 각 문서의 표를 하나로 합쳐야 하는데 PDF는 그게 불가능하다. 더구나 컴퓨터의 표 프로그램(스프레드 시트)은 PDF를 읽지 못한다. 그 때문에 모든 파일을 스프레드 시트가 읽고 쓸 수 있는 형식(CSV)으로 바꿔 줘야 한다. 파일 변화에 성공해도 문제는 남는다. 원본 표의 행렬(行列)이 다 제각각이라 이를 하나하나 바로잡아 주지 않으면 계산이 안 된다.
물론 방법이 전혀 없진 않다. ‘지저분한’ 원본 데이터를 컴퓨터가 알아서 깨끗이 정제하도록 새로 컴퓨터 코딩을 하면 된다. 중앙일보도 그렇게 했다. 하지만 일반 국민 중에 그럴 사람이 얼마나 될까. 결국 공직자 재산 내역을 PDF로 공개하는 건 “우리가 주는 대로 보기만 하고, 쓰지는 말라”는 의미밖에 안 된다.
하기야 이번보다 더한 적도 있었다. 지난해 대통령 선거 때 선거관리위원회에 정보 공개 청구를 해 받은 후보자 데이터는 종이서류를 스캔한 PDF였다. 말만 문서지, 사실 ‘그림’이었던 셈이다. 이런 PDF 데이터를 쓰자면 일일이 수작업을 하는 것 외엔 방법이 없다.
소위 ‘4차 산업혁명 시대’라면서 공공 데이터를 기계(컴퓨터) 인식이 안 되는 PDF로 공개하는 건 난센스다. 제발 ‘공급자 관점’을 버리자. 정부의 목적이 “우리는 공개했다”고 생색만 내는 게 아니라면.
Log in to Twitter or Facebook account to connect
with the Korea JoongAng Daily
help-image Social comment?
s
lock icon

To write comments, please log in to one of the accounts.

Standards Board Policy (0/250자)