Character Sets คืออะไร
คอมพิวเตอร์เก็บข้อมูลโดยรหัส 0 กับ 1
รหัส 1 ตัว เรียกว่าเป็น 1 bit, รหัส 8 bit เรียกว่าเป็น 1 byte
การจะแสดงตัวอักษร A - Z ออกมา คอมพิวเตอร์จะต้องรู้ว่ารหัสแบบใดคือตัวอักษรอะไร
คอมพิวเตอร์ในยุคแรกๆ จึงใช้ระบบการเก็บข้อมูลโดยใช้รหัสยาว 7 บิต (127 ตัวอักษร) ที่เรียกว่า ASCII
ASCII จึงเป็น Character Encoding Standard หรือ Character Set แรกของโลก
127 ตัวอักษรได้แก่ ตัวเลข 0 - 9 ตัวอักษร A - Z และอักษรพิเศษบางตัวเช่น ! $ + - () @ เป็นต้น
ตัวอย่างรหัส 100 0001 ได้เลข 65 เมื่อผ่านการ Encode ด้วย ACSII จะได้ตัวอักษร A
ต่อมาคอมพิวเตอร์ถูกใช้อย่างแพร่หลาย ภาษาอื่นๆ จึงถูกเพิ่มเข้ามามากขึ้น
จึงเพิ่มความยาวของรหัสที่ใช้ประมวลผลจาก 7 ตัว เป็น 8 ตัว เก็บตัวอักษรได้ 256 ตัวอักษร เรียกว่า ANSI (Windows-1252)
ต่อมาใน HTML 4 ISO-8859-1 ถูกใช้เป็น Character Set เริ่มต้น แต่ก็ยังคงเก็บตัวอักษรได้ 256 ตัวอักษรอยู่ดี
สุดท้ายตัวอักษรไม่พอใช้ ใน HTML5 จึงเปลี่ยนค่าเริ่มต้นเป็น UTF-8 ซึ่งสามารถเก็บรหัสได้ยาวสูงสุดถึง 4 ไบต์ เก็บตัวอักษรได้ถึง 34,168 ตัวอักษร เป็นภาษาทั่วโลก 24 ภาษา