그건 수백만의 스타일이 뭉뚱그려 들어가 있는 데이터를 일반 상용 엔진으로 번역하는 경우고요.
아무리 귀여니체를 써도, 혹은 야민정음을 써도
그걸 쓰는 사람 한 명의 데이터를 지속적으로 트레이닝하면 높은 비율로 해독해냅니다.
이미 야민정음을 정확히 번역해냈다는 기사가 많이 나오고 있습니다
(물론 그건 그 문장만은 잘 번역하도록 엄청 트레이닝을 거친 후 홍보용으로 보여준 거라는 건 감안할 필요가 있지만요)
예들 들어 호에에님이 ㅇㅅㅇ로 문장을 끝내는 버릇이 있는데,
이걸 그냥 구글 한영번역에 넣으면 어떻게든 텍스트로 읽으려 하지만
호에에님이 가생이에 쓴 글들을 크롤링해서 계속 딥러닝을 시키면 그냥 이모티콘으로 번역합니다.
번역회사에서 7년째 신경망번역 리서치를 하고 있는데
충분한 시간과 데이터만 주면 생각보다 잘 잡아냅니다.
적어도 수천년전의 고대문자들은 몇몇 소수의 지배층,상인,지식인,관료들 사이에서만 통용되었기 때문에 축약어나 비표준어, 사용집단에 따른 각종 신조어등의 사용비율이 극히 낮았을 것입니다. 적어도 동시대 이용자층 사이에서는 해석의 문제가 생기지는 않았을 것입니다. 문자의 집단에 따른 이용방식의 문제라 굳이 시간범위나 오래전문자와 비교할 필요는 없을듯 ^^