พูดคุย:เอนโทรปีของข้อมูล

จากวิกิพีเดีย สารานุกรมเสรี

ค่าเอนโทรปีของข้อมูลอาจจะเรียกว่าค่าความฟุ้งกระจายของข้อมูล ซึ่งหากข้อมูลมีรูปแบบของผลลัพธ์ที่คล้ายคลึงกันอีกนัยหนึ่งคือข้อมูลอยู่ในกลุ่มเดียวกัน จะทำให้ค่าเอนโทรปีที่คำนวณได้มีค่าต่ำ หลักเกณฑ์นี้จึงมีการพัฒนาไปใช้ในการคัดเลือกตัวแปร(Feature Section)สำหรับการวิเคราะห์ข้อมูลเพื่อจำแนกกลุ่มข้อมูลขึ้น โดยมีสมมุติฐานว่า ตัวแปรที่ส่งผลต่อการจำแนกกลุ่มข้อมูลจะต้องมีค่าผลรวมของค่าเอ็นโทรปีของข้อมูลทุกๆ กลุ่ม ในตัวแปรนั้น มีค่าต่ำที่สุด

สูตรการคำนวณจึงปรับใหม่ได้เป็น
E(x)=\sum_{i=1}^{Nc}\frac{n_{i}}{N}H(x_{i})
จากสูตรการคำนวณ จะเรียก E(x) ว่าค่าประมาณของค่าเอนโทรปี(Expectation Entropy)
N คือ จำนวนค่าของผลลัพธ์ทั้งหมด
Nc คือ จำนวนกลุ่ม
xi คือ ตัวแปร ในกลุ่ม i
ni คือ จำนวน ค่าของผลลัพธ์ในตัวแปรกลุ่มที่ i

ในข้อมูลที่มีหลายตัวแปร การคัดเลือกตัวแปร x จะอาศัยการพิจารณาค่าประมาณของค่าเอนโทรปี E(x) โดยหากมีค่าน้อยจะแสดงว่าตัวแปรนั้น เป็นตัวแปรที่น่าจะใช้ในจำแนกประเภทของข้อมูลได้ดี