ภาษาศาสตร์เชิงคำนวณ

จากวิกิพีเดีย สารานุกรมเสรี

บทความนี้มีลิงก์แทรกในบทความที่ข้ามไปภาษาอื่นโดยเป็นลิงก์สีฟ้าอ่อน
โดยผู้เขียนใส่ไว้เพื่อสะดวกในการเขียน และควรแก้ลิงก์ภาษาอื่นเป็นข้อความธรรมดา เมื่อมีลิงก์ภาษาไทยที่ถูกต้อง หรือเห็นควร เพื่อไม่ให้ผู้อ่านสับสน
ภาษาศาสตร์
ภาษาศาสตร์เชิงทฤษฎี
สัทศาสตร์
สรวิทยา
สัณฐานวิทยา
วากยสัมพันธ์
อรรถศาสตร์
ลีลาวิทยา
วจนปฏิบัติศาสตร์
ภาษาศาสตร์ประยุกต์
ภาษาศาสตร์สังคม
ภาษาศาสตร์เพิ่มพูน
ภาษาศาสตร์ปริชาน
ภาษาศาสตร์เชิงคำนวณ
ภาษาศาสตร์เชิงประวัติศาสตร์
ศัพทมูลวิทยา
รายชื่อนักภาษาศาสตร์

ภาษาศาสตร์เชิงคำนวณ (อังกฤษ: computational linguistics) หรือ ภาษาศาสตร์คอมพิวเตอร์ เป็นสหวิทยาการที่ว่าด้วยการสร้างแบบจำลองเชิงตรรกะของภาษาธรรมชาติ จากมุมมองในเชิงคำนวณ. แบบจำลองนี้ ไม่ได้จำกัดอยู่แค่ในสาขาในสาขาหนึ่งของภาษาศาสตร์

เดิมทีเดียว นักภาษาศาสตร์เชิงคำนวณมักจะเป็นนักวิทยาศาสตร์คอมพิวเตอร์ ซึ่งเชี่ยวชาญในด้านการประยุกต์ใช้คอมพิวเตอร์เพื่อประมวลผลภาษาธรรมชาติ (natural language) แต่งานวิจัยในช่วงหลัง ได้แสดงให้เห็นว่า ภาษานั้นซับซ้อนเกินกว่าที่คาดคิดไว้ ดังนั้นกลุ่มศึกษาภาษาศาสตร์เชิงคำนวณจึงกลายสภาพเป็นกลุ่มสหวิทยาการไป โดยจะต้องมีอย่างน้อยหนึ่งคนที่เป็นนักภาษาศาสตร์​ (นั่นคือ ฝึกฝนมาทางด้านภาษาศาสตร์โดยเฉพาะ) ส่วนคนอื่น ๆ อาจจะเชี่ยวชาญในสาขา วิทยาศาสตร์คอมพิวเตอร์ ปัญญาประดิษฐ์ จิตวิทยาด้านการรับรู้ (en:cognitive psychology) ตรรกวิทยา และอื่น ๆ

สารบัญ

[แก้] จุดกำเนิด

ภาษาศาสตร์เชิงคำนวณนั้นนับเป็นแขนงวิชาแรกเริ่มของปัญญาประดิษฐ์แขนงหนึ่ง ซึ่งเริ่มต้นในสหรัฐอเมริกาในช่วงคริสต์ทศวรรษที่ 1950 (พ.ศ. 2493 ถึง พ.ศ. 2503) เพื่อที่จะแปลเอกสารภาษาต่างประเทศไปเป็นภาษาอังกฤษโดยอัตโนมัติ โดยเฉพาะการแปลวารสารวิทยาศาสตร์ของสหภาพโซเวียต ในสมัยนั้นคอมพิวเตอร์ได้พิสูจน์ความสามารถแล้วว่า สามารถแก้ปัญหาทางคณิตศาสตร์ที่ซับซ้อนได้เร็วกว่าและแม่นยำกว่ามนุษย์มาก แต่ถึงกระนั้น เทคนิคต่าง ๆ ก็ยังไม่ได้รับการพัฒนาให้มีประสิทธิภาพมากพอที่จะประมวลผลภาษาได้

เมื่อการแปลภาษาอัตโนมัติ (machine translation) ที่ให้ผลลัพธ์แม่นยำได้ล้มเหลว จึงได้มีการกลับมามองปัญหาของการประมวลผลภาษาใหม่ พบว่าปัญหานั้นซับซ้อนเกินกว่าที่ได้คาดคิดไว้ในตอนแรก ภาษาศาสตร์เชิงคำนวณจึงได้ถือกำเนิดขึ้นเป็นศาสตร์ใหม่ ที่อุทิศให้กับการพัฒนาอัลกอริทึม และซอฟต์แวร์ประมวลผลข้อมูลทางภาษาอย่างชาญฉลาด เมื่อปัญญาประดิษฐ์ได้ถือกำเนิดขึ้นในช่วงคริสต์ทศวรรษที่ 1960 (พ.ศ. 2503 ถึง พ.ศ.​ 2513) ภาษาศาสตร์เชิงคำนวณจึงได้กลายมาเป็นแขนงหนึ่งของปัญญาประดิษฐ์ โดยเน้นการจัดการกับความเข้าใจในระดับมนุษย์ (human-level comprehension) และการผลิตภาษาธรรมชาติ (production of natural languages)

ในการแปลภาษาหนึ่งไปเป็นอีกภาษาหนึ่งนั้น ได้มีการศึกษาวิจัยแล้วว่า คนจะต้องเข้าใจวากยสัมพันธ์ (syntax) ของภาษาทั้งสอง และอย่างน้อยก็ต้องในระดับสัณฐานวิทยา (morphology - วากยสัมพันธ์ของรูปคำ) และทั้งประโยค ในการเข้าใจวากยสัมพันธ์ คนจะต้องเข้าใจอรรถศาสตร์ (semantics - ความหมาย) ของคำศัพท์ และรวมถึงความเข้าใจในวจนปฏิบัติศาสตร์ (pragmatics - การสื่อความหมายที่แท้จริงของภาษา) ว่าภาษานั้นได้ใช้อย่างไร เช่น เพื่อบอกเล่า (declarative) หรือเพื่อการประชดประชัน (ironic) ดังนั้นการที่จะแปลความระหว่างภาษาได้นั้น จะต้องใช้องก์ความรู้ทั้งหลายที่มุ่งเน้นความเข้าใจเกี่ยวกับ การประมวลผลและการสังเคราะห์ประโยคของภาษาธรรมชาติแต่ละภาษาโดยใช้คอมพิวเตอร์นั่นเอง

[แก้] สาขาย่อย

ภาษาศาสตร์เชิงคำนวณสามารถแบ่งออกเป็นหลายแขนงหลัก ตามสื่อกลางของภาษาที่ประมวลผล ไม่ว่าจะเป็นทางการพูดหรือการเขียน และตามวิธีการใช้ภาษา ทั้งการวิเคราะห์และสังเคราะห์

  • การรู้จำเสียง (en:speech recognition) และการสังเคราะห์เสียง (en:speech synthesis) เป็นการศึกษาวิธีการเข้าใจหรือสร้างภาษาพูด
  • การแจกแจงโครงสร้าง (en:parsing) และการสังเคราะห์ภาษา (generation) เน้นไปที่การแยกภาษาเป็นส่วน ๆ และการประกอบรวมภาษาให้สื่อความได้ ตามลำดับ
  • การแปลภาษาด้วยเครื่อง ยังคงเป็นแขนงสำคัญอันหนึ่งของภาษาศาสตร์เชิงคำนวณ โดยมีหลายแนวคิด เช่น การแปลจากภาษาหนึ่งไปเป็นอีกภาษาหนึ่งโดยตรง หรือการแปลจากภาษาต้นทางไปเป็นภาษากลาง (ภาษาสากล - inter lingua) ก่อน จากนั้นค่อยแปลจากภาษากลางไปเป็นภาษาปลายทาง

ในการวิจัยด้านภาษาศาสตร์เชิงคำนวณส่วนใหญ่ จะมีแนวทางดังต่อไปนี้

  • ภาษาศาสตร์เชิงคลังเอกสาร โดยใช้คอมพิวเตอร์ช่วยวิเคราะห์ (computer aided corpus linguistics)
  • การออกแบบโปรแกรมแจกแจงประโยค (parser) ให้รองรับภาษาธรรมชาติ
  • การออกแบบตัวกำกับ (tagger) เช่น ตัวกำกับชนิดคำ (en:part-of-speech tagger หรือ POS-tagger)
  • การนิยามตรรกศาสตร์แบบพิเศษ เช่น ตรรกศาสตร์ทรัพยากร เพื่อการประมวลผลภาษาธรรมชาติ (Natural language processing หรือ NLP)
  • การวิจัยความสัมพันธ์ระหว่างภาษาฟอร์มอลกับภาษาธรรมชาติในสภาวะปกติ

สมาคมเพื่อภาษาศาสตร์เชิงคำนวณ ​(Association for Computational Linguistics หรือ ACL) ได้นิยามภาษาศาสตร์เชิงคำนวณไว้ว่า "เป็นการศึกษาภาษาตามแนวทางวิทยาศาสตร์จากมุมมองเชิงคำนวณ นักภาษาศาสตร์เชิงคำนวณจะสนใจที่การสร้างแบบจำลองเชิงคำนวณ (en:computational model) ของปรากฏการณ์ทางภาษาศาสตร์ทั้งหลาย"

[แก้] ดูเพิ่ม

[แก้] แหล่งข้อมูลอื่น