Python 编码

Python由国外引入,在2.x版本中默认使用ASCII编码,此情况下,当输入中文字符时程序运行出错,究其原因是ASCII编码使用8位表示了所有的英文、符号、数字,但不包含中文。

后来引入万国码unicode。万国码规定最少使用两个字节,汉字使用3个字节。使用万国码可以标识世界上现有的所有语言,但存在一个弊端,英文、数字、符号等一个字节就可以标识的字符均使用至少两个字节标识,大大浪费了存储空间,由此引入了UTF-8编码。

UTF-8编码是对于unicode编码的加工,它规定了某些字符使用8位、某些使用16位、某些使用24位,大大节省了空间。GBK、GB2312与UTF-8编码类似,均是对于unicode编码的加工。