编码机

包子讲故事一个关于编码的故事

发布时间:2023/6/20 22:35:23   
白癜风可以医治好么 http://pf.39.net/bdfyy/bdflx/190522/7157873.html
包子时刻

开头.jpg

初探(ASCII)

从第一台计算机被创造出来开始,他们就只能听懂由0和1组成的机器语言(二进制数)。只有很少数的科学家可以与计算机交流,因为机器语言太难学了。

计算机知道,想要让自己的族群得到更大的发展,就必须要突破语言的障碍能够和更多的人类进行交流。

经过了大量的学习和思考,计算机终于找到了与人类交流的方法。

将文字与机器语言(二进制数)做一个映射表。通过查表的方式就将文字转换成固定的二进制机器码。这样就可以与人类进行无障碍的沟通了。

而这种类似与查字典的转换方式,就是编码,将人类语言编码为机器语言。

由于,计算机是由美国人发明的。于是计算机决定从英语开始入手。

经过了大量的分析实验,计算机发现从英语入手这件事实在是一个明智的选择,因为英语只有26个字母,算上字母的大小写和数字总共也只有不足一百个。

于是计算机决定用7位二进制(个)来对英语进行编码,在编写映射表的过程中,又将一些常用的符号和操作都加入到表中。

由于计算机的最小存储单位是1字节也就是8位,于是将7位ASCII码的最高位用0进行了补齐。经过不断的修改和完善。

ASCII码

终于,年第一版的机器语言和英语操作的映射表问世了!这张表就是后来大名鼎鼎的ASCII码二进制表的雏形。

ASCII二进制对照表

ASCII二进制表将~这个二进制数与常用的数字、字母、符号以及常用操作都进行了映射。从此计算机就可以和英语国家的人进行正常交流了。

进步(EASCII)

随着计算机的不断发展,数学计算成为了很重要的功能,可是数学公式中,有着很多特殊的希腊字母和符号。

这时计算机想到,ASCII码只用了一个字节的后7位,还有一位没有使用。于是将常用的希腊字母和拉丁符号补充到原来的ASCII码表中。形成了新的8位二进制编码——EASCII。

可是仅仅与英语国家人交流完全不能满足计算机的需求。想要走入更多非英语国家,就必须学习更多的语言。

西欧成为了计算机下一个目标,因为那里经济繁荣发展的空间更大。

幸运的是西欧地区的人民同样使用的是字母文字,数量不多,可以使用EASCII码的成功经验,为不同的语言分别维护一张8位二进制的映射表。

最终这样的映射表产生了15个版本。

从此,整个欧美地区的人类都可以和计算机进行交流了。

初来乍到(GB)

在遥远的东方,中国正在不断的崛起。计算机看在眼里,最终决定将中文的学习也列入到自己的计划中。

经过对汉字深入的分析和研究,计算机遇到了一个新的问题——汉字的数量太多了。

汉字是象形文字而非字母文字,无法通过少量字母组合形成语言体系。这样一个字符()已经完全无法满足要求,必须提供更大的内存。

至此,两字符()的编码方式出现了。两个字符足够保存常用的汉字。

年GB出现了。从此计算机也进入了中国。

计算机使用类似的方式学会了日语、韩语等亚洲国家的语言。

大一统(unicodeutf-8)

现在的计算机已经几乎遍布全球上数以千计的国家。可是交流的问题并没有完全解决。

计算机发现,这个世界上的语言实在是太多了,不下几千种,几乎每种语言都有自己的编码方式。这样就需要维护几千涨映射表。而且,每次在于人类交流之前必须先确定编码后才能准确的理解人类的语言。

更重要的是,有些时候人类不仅仅只用一种语言与计算机进行交流。而编码方式的不断转换非常容易出现错误。于是乱码的问题出现了。

这大大的降低了人类与计算机深度交流的兴趣。

经过计算机不断的讨论,最终决定效仿秦始皇统一文字。将世界各国的语言都编入统一个映射表中,为了兼容中文日文等文字,采用统一的两字符方式来进行编码。这样计算机就可以用统一的编码方式与不同语言的人类进行交流了。

这种统一的编码方式叫做万国码,也就是我们熟悉的unicode。

unicode编码

虽然,unicode的出现解决了编码方式过多的问题。但是,统一两字符的编码方式也给计算机带来的新的问题——内存使用过大。

试想一下,如果一个纯英文文件,本来每个字母只需要占用1个字符,但是使用unicode后需要占用两个字符。这对于当时内存本就不大的计算机来说将是一个很大的负担。

就在很多计算机为内存的浪费感到头疼时,计算机长老会又有了一个新的大动作。

编写了一种可变长的编码方式,用1个字节来编码英语,用两个字节来编码有变音的拉丁文,而对于常用的汉字和日文等使用3个字节进行编码。

这就是现在广为流传的utf-8编码。

utf-8

utf-8能够像如今这样的流行,不仅仅因为他的可变长的特性,而且utf-8向前兼容了ASCII码。使得使用ASCII编写的老程序依然可以在utf-8的编码下正常运行。

这一特点,加速了utf-8的发展。也真正为计算机走近全球各地人民的打下了坚实的基础。

尾声(GBKGB)

本来,故事到了这里就该结束了。不过包子作为一名中国人,准备再给大家简单介绍一下中文的编码发展。

随着计算机使用领域的发展,有一些特殊领域需要使用很多生僻的汉字。为了满足这些特殊需求。

年编写了名为GBK的双字节变长编码,共收录了个汉字。

年编写了GB,不但收录了70,个汉字,还支持了中国各少数民族文字的编码。

就这样,计算机通过不断的优化编码方式,现在已经可以与人类进行无障碍的沟通了。



转载请注明:http://www.aideyishus.com/lkzp/5002.html
------分隔线----------------------------