최근에 글 문단이나, 띄어쓰기, 줄 맞춤 등이 이상한 글들이 자주 올라옵니다. 주로 2,3랩들이 글을 이렇게 쓰네요.
이런 현상 중에 의심해 볼 수 있는 예가 몇 개 있는데,
1. 글 쓰기 능력 부족
2. 국가별 인코딩 코드와 방식 차이에 따른 변환 오류
3. OCR 프로그램의 전형적인 성능 부족
------------------------------------------------
1번의 경우엔 한국 사람이 보면 딱 티가 납니다.
2번의 경우엔 요즘은 유니 코드를 사용해서 별로 없긴 하지만, 일본과 중국은 아직도 옛날 코드 사용하는 것들이 있어서 한국에서 띄어쓰기 한 번 할 걸 두번으로 표시되기도 합니다.
그리고 걔들은 몇몇 한국식 부호를 사용하기 힘들어서 일일이 변환해야 하는데, 마침표 하나 없이 글 쓰는 글들이 올라오는 것 봐서는 그런 의심이 들기도 합니다.
3번의 경우엔 OCR 프로그램이라고 글자를 사진으로 찍거나 스캔하면 바로 컴퓨터용 글자로 변환해주는 겁니다.
요즘 스마트폰 앱으로도 많이 나와서 쓰고 있는 사람들이 있으니 쉽게 이해가실 겁니다.
근데 이 OCR 프로그램이 명도차에 의한 글자 인식이기 때문에, 빈 공백을 띄어쓰기 여러번으로 인식한다거나 하는 몇 가지 취약점이 있습니다.
특히 책 페이지를 스캔해서 글자인식을 시키면 모양은 비슷해도, 사람이 생각하는 원칙을 무시한 상황들이 발생합니다.
------
당연히 이런 상황들을 보면 의심이 들 수 밖에 없는 정황인데, 아니라고 별 이상한 소리를 하네요.
그러면 글을 쓸 때 사람이 읽기 쉽게 쓰던가, 아니면 의심 안들게 쓰던가 할 것이지...
글쓰기의 매너도 모르는 사람이 자신의 주장을 글로 표현하겠다는 것 자체가 참 웃깁니다.