深入理解计算机系统cp1:存储单位与编码

  • UTF-8

    1) UTF:实际传输过程中,基于不同的系统平台,对 Unicode 会有不不同的实现方式,其实现方式称为 Unicode Transformation Format,即 UTF。

    2) 作为 Unicode 的一种实现方式,UTF-8 展现了一定的灵活性——它是一种变长编码,会根据具体字符来改变所需要的表示字节。其编码规则只有两条:

    i>. 对于 128 个 ASCII 字符只需一个字节表示,字节的第一位补 0,后面 7 位为这个字符的 ASCII 二进制数。Unicode 范围为 U+0000 至U+007F。

    ii>. 对于 n 字节的符号(n>1),第一个字节的前 n 位都设为 1,第 n+1 位设为 0,后面字节的前两位一律设为 10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码二进制数。Unicode 范围由 U+0080 起。