사용자토론:Yes0song/다지모
위키백과 ― 우리 모두의 백과사전.
[편집] 한자 혼용판과 문화어판 도입 관련 의견
저는 한국어판 위키프로젝트(위키백과 포함)에서 자동 변환기를 이용하여 한자 혼용판과 문화어판 문서들을 볼 수 있게 했으면 좋겠다고 생각하고 있습니다. 변환기의 작동 방식에 관한 저의 의견은 m:User:Yes0song/ko 자동변환기에서 보실 수 있습니다.
- 한자 혼용판에 관해: 저는 1차적으로 한자→한글 자동 변환기를 개발, ko에 탑재하여 기존의 한글 전용판 문서 뿐만 아니라 한자 혼용판 문서도 볼 수 있게 하면 좋을 것 같습니다. 이것은 중국어판에서 간체↔번체 자동 변환기를 탑재하고 있는 것과 비슷합니다. 다만 한글→한자 자동 변환은 기술적으로 거의 불가능하기 때문에, 한자→한글 변환기만 만들 수밖에 없습니다. 나중에 한글→한자 자동 변환기가 개발되어 ko에 탑재되면 그때부터 한자 혼용판 문서를 작성할 수 있게 될 것입니다.
- 문화어판에 관해: 아직 북한이 인터넷 쇄국 정책을 펴고 있지만, 언젠가는 북한 주민들이 한국어판 위키백과에 접속하여 활동하는 날이 오리라고 믿습니다. 한자→한글 변환기를 개발한 이후에는 남한의 표준어 및 한자 혼용판과 북한의 문화어를 상호 자동 변환하는 것을 개발했으면 합니다. 현재 중국어판의 자동 변환기는 한자의 간체와 번체자를 기계적으로 치환하는 것뿐만이 아니라 중화인민공화국과 중화민국의 서로 다른 어휘까지 치환해주는 기능이 있습니다. 저는 이것을 응용하여 한국어판에도 도입하면 남한 표준어와 북한 문화어를 모두 지원할 수 있게 될 것이라고 봅니다.
- 아예 독립적인 위키백과를 만들면 안 되나?: 어떤 분들은 위 한자혼용판과 문화어판을 한국어판에서 지원하지 말고, 아예 독립적인 위키백과를 만들면 어떻겠느냐 하는 의견을 주실지도 모르겠습니다. 그러나 저는 한자→한글 자동 변환기, 표준어↔문화어 자동 변환기를 만들 수 있다면 굳이 ko와 별도로 프로젝트를 시작할 필요는 없다고 봅니다. 차라리 안정 궤도에 접어든 기존 한국어판을 이용하는 것이 훨씬 효율적이라고 생각합니다.
좀 두서 없이 쓴 감이 있는데요, 이상은 일단 제 의견입니다. 다른 분들의 의견도 들어보고 싶습니다. ― Yes0song (談笑 筆跡) 2006년 11월 22일 (수) 14:55 (KST)
- 우선 한글->한자 자동변환은 "불가능"합니다. (자연어 처리 기술이 극한에 달해 자동번역이 가능해지면 모르겠습니다만..) 문화어/표준어 번환도 그리고 간체/번체 변환과는 사정이 다릅니다. 간체/번체 사이에서는 거의 1:1 변환이 가능하며, 몇몇 중화민국/중화인민공화국 사이에 다른 어휘를 쓰는 경우는 특별한 위키마크업을 사용합니다. zh:批处理의 처음을 보면 "-{zh-cn:批;zh-tw:批次}-处理"라고 되어 있습니다. 정체 탭을 눌러보면 "批次處理"로 바뀌는 걸 볼 수 있습니다. 앞의 두 글자 "批次"는 한자 확장 마크로를 통한 것이고, "處"는 간체자 "处"의 자동변환입니다. 비슷한 식이라면 한국어에서도 "-{ko-kr:양강도|ko-kp:량강도|ko-hanja:兩江道}-"라고 적으면 되겠죠. 하지만 본문에 나오는 모든 량강도라는 단어를 다 이런 식으로 쓰는게 어디까지 가능할까요? -- ChongDae 2006년 11월 22일 (목) 15:28 (KST)
- 한자→한글 또한 불가능합니다. 왜냐하면 그 경우 글을 한자 혼용으로 써야 가능하기 때문입니다. 하지만 한국어 위키백과에는 글에 거의 한자가 안 들어가고 한글로만 돼 있습니다. 그리고 한자 변환도 한 글자 한 글자 해야 하니 번거롭지요. 또한 '樂'같이 같은 한자라도 소리가 다른 글자가 있지만 유니코드 정규화 알고리즘에 따라 호환용 한자는 모두 대표 한자로 바뀌죠. 정 호환용 한자를 쓰고 싶으면 &#xxxxx;와 같은 방식으로 써야 합니다. ―에멜무지로¹²³ 2006년 11월 22일 (목) 20:08 (KST)
-
- 에멜무지로님은 반대하시겠지만, 제 생각은 기존 문서를 서서히 한자 혼용으로 바꾸면 된다는 입장입니다. 호환용 한자에 관한 문제의 해법은 m:User:Yes0song/ko 자동변환기에 제시해 놓았습니다. 앞으로 미디어위키에서 한자에 대해서는 유니코드 정규화 알고리즘을 off시킬 수 있도록 하는 것이지요. 저는 한자 혼용판 위키백과를 따로 만들기보다는 가능하다면 한국어판에서 남한 한글 전용판, 남한 한자 혼용판, 북한 한글 전용판(때에 따라서는 연변 조선족 말까지)을 자동 변환기로 커버할 수 있게 하는 게 좋을 것이라고 생각하여 다지모를 만들어 보았습니다. ― Yes0song (談笑 筆跡) 2006년 11월 23일 (목) 14:23 (KST)
-
-
- 저는 "유니코드 정규화 알고리즘을 off" 하는 것에는 반대합니다. KS 코드에서 같은 한자를 음에 따라 여러개의 코드로 할당한 것은 심각한 설계 결함으로 인식되고 있습니다. 그걸 이용해서 한자의 발음을 변환하는 것은 한계도 많지만 검색이나 편집면에서 문제가 많이 발생합니다. 그리고 KS 코드에서도 모든 한자의 변이 발음을 다 반영하고 있지도 않고 KS코드에 없는 한자지만 발음이 복수개인 한자에 대해서도 처리를 하지 못하죠. 제가 보기엔 중국 위키백과에서 하듯, 그리고 종대님이 제안한 것처럼 사람이 편집하면서 발음이나 문화어, 한자표기에 관한 정보를 마크업을 하는 편이 더 체계적이고 구조적인 문서 관리가 될 것 같습니다. 이런 마크업을 전부 수동으로만 하는 것도 아니고 사전 데이터베이스를 만들어서 좀더 편리하게 반자동으로 변환할 수도 있을 것 같습니다. --시간 파리 2006년 11월 24일 (토) 16:17 (KST)
-