사용자토론:Yes0song/다지모
위키백과 ― 우리 모두의 백과사전.
목차 |
[편집] 한자 혼용판과 문화어판 도입 관련 의견
저는 한국어판 위키프로젝트(위키백과 포함)에서 자동 변환기를 이용하여 한자 혼용판과 문화어판 문서들을 볼 수 있게 했으면 좋겠다고 생각하고 있습니다. 변환기의 작동 방식에 관한 저의 의견은 m:User:Yes0song/ko 자동변환기에서 보실 수 있습니다.
- 한자 혼용판에 관해: 저는 1차적으로 한자→한글 자동 변환기를 개발, ko에 탑재하여 기존의 한글 전용판 문서 뿐만 아니라 한자 혼용판 문서도 볼 수 있게 하면 좋을 것 같습니다. 이것은 중국어판에서 간체↔번체 자동 변환기를 탑재하고 있는 것과 비슷합니다. 다만 한글→한자 자동 변환은 기술적으로 거의 불가능하기 때문에, 한자→한글 변환기만 만들 수밖에 없습니다. 나중에 한글→한자 자동 변환기가 개발되어 ko에 탑재되면 그때부터 한자 혼용판 문서를 작성할 수 있게 될 것입니다.
- 문화어판에 관해: 아직 북한이 인터넷 쇄국 정책을 펴고 있지만, 언젠가는 북한 주민들이 한국어판 위키백과에 접속하여 활동하는 날이 오리라고 믿습니다. 한자→한글 변환기를 개발한 이후에는 남한의 표준어 및 한자 혼용판과 북한의 문화어를 상호 자동 변환하는 것을 개발했으면 합니다. 현재 중국어판의 자동 변환기는 한자의 간체와 번체자를 기계적으로 치환하는 것뿐만이 아니라 중화인민공화국과 중화민국의 서로 다른 어휘까지 치환해주는 기능이 있습니다. 저는 이것을 응용하여 한국어판에도 도입하면 남한 표준어와 북한 문화어를 모두 지원할 수 있게 될 것이라고 봅니다.
- 아예 독립적인 위키백과를 만들면 안 되나?: 어떤 분들은 위 한자혼용판과 문화어판을 한국어판에서 지원하지 말고, 아예 독립적인 위키백과를 만들면 어떻겠느냐 하는 의견을 주실지도 모르겠습니다. 그러나 저는 한자→한글 자동 변환기, 표준어↔문화어 자동 변환기를 만들 수 있다면 굳이 ko와 별도로 프로젝트를 시작할 필요는 없다고 봅니다. 차라리 안정 궤도에 접어든 기존 한국어판을 이용하는 것이 훨씬 효율적이라고 생각합니다.
좀 두서 없이 쓴 감이 있는데요, 이상은 일단 제 의견입니다. 다른 분들의 의견도 들어보고 싶습니다. ― Yes0song (談笑 筆跡) 2006년 11월 22일 (수) 14:55 (KST)
- 우선 한글->한자 자동변환은 "불가능"합니다. (자연어 처리 기술이 극한에 달해 자동번역이 가능해지면 모르겠습니다만..) 문화어/표준어 번환도 그리고 간체/번체 변환과는 사정이 다릅니다. 간체/번체 사이에서는 거의 1:1 변환이 가능하며, 몇몇 중화민국/중화인민공화국 사이에 다른 어휘를 쓰는 경우는 특별한 위키마크업을 사용합니다. zh:批处理의 처음을 보면 "-{zh-cn:批;zh-tw:批次}-处理"라고 되어 있습니다. 정체 탭을 눌러보면 "批次處理"로 바뀌는 걸 볼 수 있습니다. 앞의 두 글자 "批次"는 한자 확장 마크로를 통한 것이고, "處"는 간체자 "处"의 자동변환입니다. 비슷한 식이라면 한국어에서도 "-{ko-kr:양강도|ko-kp:량강도|ko-hanja:兩江道}-"라고 적으면 되겠죠. 하지만 본문에 나오는 모든 량강도라는 단어를 다 이런 식으로 쓰는게 어디까지 가능할까요? -- ChongDae 2006년 11월 22일 (목) 15:28 (KST)
- 한자→한글 또한 불가능합니다. 왜냐하면 그 경우 글을 한자 혼용으로 써야 가능하기 때문입니다. 하지만 한국어 위키백과에는 글에 거의 한자가 안 들어가고 한글로만 돼 있습니다. 그리고 한자 변환도 한 글자 한 글자 해야 하니 번거롭지요. 또한 '樂'같이 같은 한자라도 소리가 다른 글자가 있지만 유니코드 정규화 알고리즘에 따라 호환용 한자는 모두 대표 한자로 바뀌죠. 정 호환용 한자를 쓰고 싶으면 &#xxxxx;와 같은 방식으로 써야 합니다. ―에멜무지로ㅅ·ㅌ·ㄱ 2006년 11월 22일 (목) 20:08 (KST)
-
- 에멜무지로님은 반대하시겠지만, 제 생각은 기존 문서를 서서히 한자 혼용으로 바꾸면 된다는 입장입니다. 호환용 한자에 관한 문제의 해법은 m:User:Yes0song/ko 자동변환기에 제시해 놓았습니다. 앞으로 미디어위키에서 한자에 대해서는 유니코드 정규화 알고리즘을 off시킬 수 있도록 하는 것이지요. 저는 한자 혼용판 위키백과를 따로 만들기보다는 가능하다면 한국어판에서 남한 한글 전용판, 남한 한자 혼용판, 북한 한글 전용판(때에 따라서는 연변 조선족 말까지)을 자동 변환기로 커버할 수 있게 하는 게 좋을 것이라고 생각하여 다지모를 만들어 보았습니다. ― Yes0song (談笑 筆跡) 2006년 11월 23일 (목) 14:23 (KST)
-
-
- 저는 "유니코드 정규화 알고리즘을 off" 하는 것에는 반대합니다. KS 코드에서 같은 한자를 음에 따라 여러개의 코드로 할당한 것은 심각한 설계 결함으로 인식되고 있습니다. 그걸 이용해서 한자의 발음을 변환하는 것은 한계도 많지만 검색이나 편집면에서 문제가 많이 발생합니다. 그리고 KS 코드에서도 모든 한자의 변이 발음을 다 반영하고 있지도 않고 KS코드에 없는 한자지만 발음이 복수개인 한자에 대해서도 처리를 하지 못하죠. 제가 보기엔 중국어 위키백과에서 하듯, 그리고 종대님이 제안한 것처럼 사람이 편집하면서 발음이나 문화어, 한자표기에 관한 정보를 마크업을 하는 편이 더 체계적이고 구조적인 문서 관리가 될 것 같습니다. 이런 마크업을 전부 수동으로만 하는 것도 아니고 사전 데이터베이스를 만들어서 좀더 편리하게 반자동으로 변환할 수도 있을 것 같습니다. --시간 파리 2006년 11월 24일 (토) 16:17 (KST)
-
-
-
-
- 저는 문자 코드 전문가는 아닙니다만, 개인적으로 미디어위키가 유니코드 정규화 알고리즘을 강제하는 것이 한국의 컴퓨팅 실정에 맞지 않다고 생각합니다. 아직도 한국의 많은 문서들이 음에 따라 여러 개의 코드를 할당한 KS 코드 체계에 맞춰서 편집되고 있습니다. 또 아래아한글을 비롯한 많은 소프트웨어가 한글 변환을 여기에 의존하고 있습니다. 이런 상황에서는 차라리 유니코드 정규화 알고리즘을 off시키는 게 낫지 않을까 하는 생각이 듭니다. 물론 KS 코드에서 커버하지 못하는 변이음이나, KS 코드에 포함되지 않은 한자들에 대해서는 사전 DB를 만들어야 할 겁니다(참고로 이런 글자는 한국어에서 사용 빈도가 높지 않습니다). 물론 에멜무지로 님 의견처럼 한자 위키백과를 따로 만들 수도 있겠지만, 그건 좀 아깝다고 생각됩니다. ― Yes0song (談笑 筆跡) 2006년 11월 24일 (토) 20:22 (KST)
-
-
-
-
-
-
- KS 코드에 포함되지 않은 한자들의 음 데이터는 날개셋 한글 입력기가 3.65부터 지원하고 있습니다.
-
-
-
-
-
-
-
- 그리고 m:User:Yes0song/ko 자동변환기에서 한자어 사이시옷에 대해 나와 있는데, '찻잔'이나 '찻장', '찻주전자' 등은 모두 한자로 돼 있지만, 이상하게도 사이시옷을 붙입니다. 그리고 한자(어)+순 우리말의 경우, 한자 음이 바뀌는 경우도 적잖이 있으니(예: '삿되다') 그것 또한 처리해야 합니다. ―에멜무지로ㅅ·ㅌ·ㄱ 2006년 11월 25일 (토) 11:59 (KST)
-
-
-
중국어 위키백과에서 간체/번체 구현 방법에 관한 문서를 읽을 수 있으면 도움이 될 듯합니다. --마소리스 2006년 12월 14일 (목) 00:17 (KST)
[편집] 문화어와 표준어
문화어와 표준어를 따로 지원 할 가치가 잇을까요? 어차피 통일이 되거나, 북한의 인터넷이 열리는 날이 온다면, 어차피 남과 북의 말을 둘다 알아야 하는 시대가 될 것 입니다. 또한, 몇몇의 용어를 제외하면, 방언 수준의 차이 밖에 나지 않는데, 굳이 자동 번역 기능을 사용하여, 문화어와 표준어를 따로 지원할 필요는 없다고 봅니다. 예를들어 모이자 조선족 온라인 커뮤니티의 자유게시판을 읽어보세요. 몇몇 방언과 두음법칙만 제외하면 표준어와 차이가 거의 없습니다. 한국 웹 사이트에 동화되어 그렇다고 생각하실지도 모르겟지만, 앞에서도 말햇듯이, 북한의 인터넷이 개방되면, 남과 북의 네티즌들이 서로 동화가 되어, 리해가 불가능 할 정도로 언어간의 괴리 현상이 나타나지 않으리라 생각합니다. 저는 남과 북의 언어는 잠재적으로 통일 될 언어이며, 위키백과가 표준어와 문화어를 모두 포용하는 것이 한국어 언어 발전을 위해 좋으리라 생각합니다. --마소리스 2006년 12월 13일 (목) 20:02 (KST)
표준어와 소위 '문화어'의 차이는 둘째 치고, 저에겐 일단 '문화어'라는 것을 제대로 구사하는 분이 한국어판 위키백과에 계시는지 조차도 의문입니다. 흐음... --Sjhan81 2006년 12월 14일 (목) 01:18 (KST)
[편집] 제가 생각하는 방법
문장이 길어서 따로 페이지를 만들었습니다. 그런데, 지금 다시 생각해 보니 중국어 위키백과 형식으로 하는게 더 좋을듯 하네요. 좀 더 생각해 보아야 겠습니다. --마소리스 2006년 12월 15일 (토) 15:46 (KST)
[편집] 루비
혼용 표기가 나중에 가능하면 XHTML 루비[1](en:Ruby (annotation markup)/ja:ルビ/zh:旁註標記) 표기도 가능케 하셨으면 합니다. 독일바퀴 2006년 12월 13일 (목) 22:33 (KST)
- 글쎄요. 루비는 ふりがな 付けます와 같이 특정 홈페이지를 통한 서비스로 지원하는 것이 옳다고 봅니다. 단, 위키백과는 GFDL 저작권으로 DB를 제공함으로서, 서비스 제작에 도움을 줄 수 있습니다. DB만 있으면 개인도 충분히 만들 수 있는 서비스라고 생각합니다. --마소리스 2006년 12월 13일 (목) 22:41 (KST)
- 저도 그런 생각을 해보았는데 제 생각은 일단 우선 '구체적인' 마소리스님의 의견부터 하나하나 차근차근 해 보는 것이 어떨까 합니다. 그러니까 나중에 해야 할 일은 나중에 토론하도록 하는 것이 좋겠습니다. -- 파란로봇군 2006년 12월 13일 (목) 23:39 (KST)
[편집] 세르비아어, 중국어, 카자흐어 위키를 참고하는 것이 좋을 것 같아요.
제가 생각해 볼 때는 이 위에 있는 위키백과를 참고하는 게 좋을 것 같아요. 이쪽 언어 위키는 오른쪽 위를 보시면 세르비아어는 라틴/키릴, 중국어는 간체/번체/타이완 번체, 카자흐어는 라틴/키릴/아랍 순으로 되어 있어요. 그래서 어느 쪽을 누르면, 거기로 변환이 됩니다. --루스 2006년 12월 14일 (목) 00:56 (KST)
- 구체적인 구현 방법이 적힌 문서를 볼 수 있었으면 좋겠습니다. --마소리스 2006년 12월 14일 (목) 00:58 (KST)
- 제가 그쪽 위키에 가입을 한 적이 있는데, 거긴 어느 쪽을 누르느냐에 따라 변환됩니다. 일단 어떻게 하면 되는지 님 의견을 듣고 싶습니다. 전 이들 언어 위키를 따르는 거는 찬성합니다. --루스 2006년 12월 14일 (목) 01:01 (KST)
- 관련 문서가 메타에 있습니다. m:Automatic conversion between simplified and traditional Chinese, m:Automatic conversion in Serbian language ― Yes0song (談笑 筆跡) 2006년 12월 14일 (금) 22:56 (KST)
-
- 세르보크로아티아어 위키는 러시아를 의미하는 Rusija에 Ћирилична верзија라고 위에 그런 게 있습니다. 고트어 위키는 밑에 라틴 문자로 변환할 수 있는 장치가 있어요. 이런 것들도 참고해서 만드는 것이 저의 바람입니다. --루스 2006년 12월 14일 (금) 23:41 (KST)
[편집] 연변 조선어
저는 '표준어(한글 전용)/표준어(한자 혼용)/문화어/연변 조선어'로 나누는 게 좋을 것 같습니다. 연변 조선어도 어느 정도 문화어와 차이가 있는 것으로 알고 있습니다. 또 한자 병기할 때 간체자를 사용하는 독특한 습관(예: '말(马)')도 있는 것 같구요. 그래서 한국어 위키프로젝트를 저 4개 variant 체계로 했으면 좋을 것 같습니다. ― Yes0song (談笑 筆跡) 2006년 12월 14일 (금) 23:44 (KST)
- 거기에다 고려말도 추가하고 싶습니다. 아제르바이잔어 위키는 라틴/아랍이 같이 병기되어 있어요. 한국어 위키도 이렇게 했으면 좋겠습니다. 저는 이렇게 표준어(한글 전용)/표준어(한자 혼용)/문화어/연변말/고려말 순으로 하고 싶습니다. --루스 2006년 12월 15일 (금) 00:26 (KST)
- 한국어 위키백과에 사실상 표준어를 사용하는 사람 밖에 없기 때문에, 다지모의 주장이 받아드려 지지 않을 수도 있다는 것을 생각해주세요. 주장은 충분히 공감대를 형성할 수 있는 내용이여만 합니다. 그리고, 한마디 덧붙이자면, 조선어 사용자도 한글입력기로 한글과 한자를 입력하기 때문에, '马' 처럼 간체자를 입력하는 일은 거의 없을 것입니다. '말(马)'을 입력하려면 입력기전환을 해야하는데, 그렇게까지 입력할 사람은 없을 것 입니다. 또한 루스님이 말씀하시는 '고려말'은 사실상 통역없이 대화를 나눌 수 없는 외국어이며, 사용자도 거의 없습니다. --마소리스 2006년 12월 15일 (금) 06:37 (KST)
- 저는 일단 '한국어'(표준어), '조선말'(문화어), '한자혼용'(표준어, 문화어 둘다 허용)판으로 시작하고, 나중에 필요 또는 (실제 연변 사람의) 요청에 의해 '연변말'을 추가했으면 좋겠습니다. --마소리스 2006년 12월 15일 (금) 11:10 (KST)
[편집] 다른 언어 위키백과의 방식 그대로 적용할 경우
중국어, 세르비아어, 카자흐어 모두 편집시 나타나는 원본 문서는 하나이며, 문서 내용이 출력되는 순간에 변환하는 방식을 사용하고 있습니다. 번환 방법은 DB를 통한 1:1 치환 방법을 사용하고 있습니다. 이런 방법을 한국어 위키백과에 적용하려면 문서는 기본적으로 한자 혼용으로 작성되고 문서가 편집할 때 한자혼용으로된 텍스트를 편집해야 합니다. 한자가 한글로 변환될 때 문화어는 한자가 대부분 하나의 발음을 가지고 있어 별 문제가 없으나, 표준어의 경우 두음법칙에 의해 1:1 변환이 불가능합니다. 따라서, 다른 언어에서 사용하는 방식을 그대로 한국어 위키백과에 적용할 수 없습니다. --마소리스 2006년 12월 15일 (금) 13:42 (KST)