但是上一世的汉字编码也有问题,那就是Unicode编码问世得太晚,导致了微软不得不采用一套基于GB13000的拓展编码,又因为这个原因,导致国家标准又不得不在GB13000编码基础上打了个打补丁,拓展出GBK,然后又拓展出GB18030。
最终得到的GB 18030-2005,全称为国家标准 GB 18030-2005《信息技术中文编码字符集》,与 GB 2312-1980完全兼容,与 GBK基本兼容,支持GB 13000及 Unicode的全部统一汉字,共收录汉字70244个。
而在那个时候,Unicode的汉字收录得还没有GB 18030-2005多,虽然理论上随便装得下所有汉字,但是无数的码位都是空的。
最后的现状,就搞成了一个旧系统补丁累补丁,而一个新系统空着大量码位没人去做填充工作,造成了数十年后信息系统当中,依然存在汉字转码不全兼容的大问题。
后世作为国企程序员的周至可谓深受其害,因此他认为解决这个问题的关键,就是国家从一开始就应该放弃局促的ISO/IEC 1064,先去把Unicode标准中的汉字空间抢得够够的,起码先抢十万个码位填充上,并且将之作为唯一强制标准,全球就用这一套。
于是说道:“八字没一撇不是正好吗?八字没一撇,我们才能够深度参与啊。只要能占有三段码位空间留给我们,就能容纳十万汉字。”
“而且Unicode只有编码的概念,其设计的目的本身就是装下全世界的各种文字。”
“汉字编码,无疑是全世界文字编码工作当中最繁复的,我们将这个工作做下来,在组织里也能拥有充分的话语权,将来还能指导其他国家和组织工作,对我们编写其余民族文字,也有奠基作用。”
现在周至和李红江讨论的内容,又轮到辜老这边的文史专家们听不懂了。
辜老打断了两人的热烈讨论:“肘子,小李,你们谁先用我们老头们听得懂的话解释一番?”
麦明川笑道:“大概的意思我明白了,我先来解释一下看看对不对,不对小李和周至同学再来补充。”
“现在的话有两套标准,一套是ISO/IEC 1064,这套体系已经成熟,虽然之颁布了第一部分,但是我们国家已经据此开发出GB 13000,可以快速推行。”
“但是这套系统有个大毛病,就是码位太少,只能容纳下两万一千零三个汉字,现在看来离完全满足需要,还有一段相当大的距离。”
“另外还有一套标准,就是Unicode。”
“这套标准只要分配给汉字的编码区间足够,就能够容纳下我们所有的汉字,而且今后还可以继续拿下更多的编码区间,进行进一步的拓展,或者用于给其余少数民族文字编码所用。”
“从设计原理来看,Unicode标准其实是优于ISO/IEC 1064的,然而这个标准现在还只是一个半吊子,第一版都还没有推出来,如果我们要使用Unicode标准的话,先得将标准完善,之后才谈得到区间分配和下一步的工作。”
“小李的意思,是咱们先将GB 13000用起来,之前已经有了搞GB2312的基础,搞这个路子熟,见效快。”
“而肘子的意思,是我们一开始就搞Unicode,一步到位,既然Unicode标准还没拍板,那我们就积极参与进去,连标准一起搞!”
“要是真的能够做到肘子所说的这样当然是最好的结果。可是,我们有那个实力吗?”辜老对国家信息产业起步猛追的印象还是有的,担心的是凭借国家现在的技术力量,完不成这项工作。
“其实这项工作他们基本已经完成了的。”李红江说道:“大多数计算机采用米国标准信息交换码也就是ASCII码,它是表示所有大小写字母、数字、标点符号和控制字符的7位编码方案。统一码已经给ASCII码完成了编制,将'\u0000'到'\u007F'对应全部128个ACSII字符。” “也就是说,计算机系统其实已经可以使用Unicode编码了,只是还没有形成大的标准而已?”
“需要完善的地方还有很多。”李红江说道:“当然既然ACSII问题都解决了,至少架构是已经成熟了,其余都是小问题。”
“如果,我是说如果,我们能够拥有一个十万级的码位空间内容供他们填充的话,我相信联盟是会非常感兴趣的。”
后世有一句话,叫做“一流企业做标准,二流企业做品牌,三流企业做产品”,现在的GBK和Unicode,其实就是标准之争。
周至补充道:“这是牵一发而动全身的大事儿,说白了就是标准之争。”
“我们中国如今在世界信息产业里边的话语权,可以说是微不足道,但是汉字字库,完全可以称得上是特殊资源。”
“只怕是全世界所有字母语系的国家,将全部符号加起来,都还没有中国的汉字多。”
“如果我们先完成了这个字库,那么对于Unicode来说,就可以作为其其绝对优势成果像世界展示。”
“就好比GBK还在使用坦克加农炮,而Unicode,已经引爆了一颗氢弹。”
“我们完全可以拿着自己的成果,支付会费,成为组织会员。”
李红江对这个组织做过一些研究,说道:“统一码联盟,是位于米国加州的Unicode组织,他们其实是允许任何愿意支付会费的公司和个人加入的。”
“八十年代末成立了两个机构,一个是Unicode组织的商业机构,一个是和国际合作的国际标准化组织。在计算机普及和信息国际化的需求下,他们分别各自成立了Unicode组织和ISO-10646工作小组。“”
“他们不久便发现对方的存在,大家为着相同的目的而工作,于是两个组织便共同合作开发适用于各国语言的通用码,而且相当有默契地各自发表Unicode和ISO-10646字集。虽然实际上两者的字集编码相同,但实质上两者确实为两个不同的标准。”
“统一码联盟在前年年首次发布了The Unicode Standard。Unicode的开发结合了国际标准化组织所制定的ISO/IEC 10646,即通用字符集。两者在编码的运作原理上其实是相同的。”
“但The Unicode Standard包含了更详尽的实现信息、涵盖了更细节的主题,诸如比特编码、校对以及呈现等。甚至还枚举了诸多的字符特性,包含了那些必须支持两种阅读方向的文字,比如普通阅读的由左至右方向,和阿拉伯文那样由右至左的方向。”
我的个去!周至的眼神和辜开来,旦增的眼神在空中瞬间交汇,中国古代典籍的阅读习惯,也是从右到左的!
阿拉伯语用得,我华夏典籍也用得!
(本章完)
最终得到的GB 18030-2005,全称为国家标准 GB 18030-2005《信息技术中文编码字符集》,与 GB 2312-1980完全兼容,与 GBK基本兼容,支持GB 13000及 Unicode的全部统一汉字,共收录汉字70244个。
而在那个时候,Unicode的汉字收录得还没有GB 18030-2005多,虽然理论上随便装得下所有汉字,但是无数的码位都是空的。
最后的现状,就搞成了一个旧系统补丁累补丁,而一个新系统空着大量码位没人去做填充工作,造成了数十年后信息系统当中,依然存在汉字转码不全兼容的大问题。
后世作为国企程序员的周至可谓深受其害,因此他认为解决这个问题的关键,就是国家从一开始就应该放弃局促的ISO/IEC 1064,先去把Unicode标准中的汉字空间抢得够够的,起码先抢十万个码位填充上,并且将之作为唯一强制标准,全球就用这一套。
于是说道:“八字没一撇不是正好吗?八字没一撇,我们才能够深度参与啊。只要能占有三段码位空间留给我们,就能容纳十万汉字。”
“而且Unicode只有编码的概念,其设计的目的本身就是装下全世界的各种文字。”
“汉字编码,无疑是全世界文字编码工作当中最繁复的,我们将这个工作做下来,在组织里也能拥有充分的话语权,将来还能指导其他国家和组织工作,对我们编写其余民族文字,也有奠基作用。”
现在周至和李红江讨论的内容,又轮到辜老这边的文史专家们听不懂了。
辜老打断了两人的热烈讨论:“肘子,小李,你们谁先用我们老头们听得懂的话解释一番?”
麦明川笑道:“大概的意思我明白了,我先来解释一下看看对不对,不对小李和周至同学再来补充。”
“现在的话有两套标准,一套是ISO/IEC 1064,这套体系已经成熟,虽然之颁布了第一部分,但是我们国家已经据此开发出GB 13000,可以快速推行。”
“但是这套系统有个大毛病,就是码位太少,只能容纳下两万一千零三个汉字,现在看来离完全满足需要,还有一段相当大的距离。”
“另外还有一套标准,就是Unicode。”
“这套标准只要分配给汉字的编码区间足够,就能够容纳下我们所有的汉字,而且今后还可以继续拿下更多的编码区间,进行进一步的拓展,或者用于给其余少数民族文字编码所用。”
“从设计原理来看,Unicode标准其实是优于ISO/IEC 1064的,然而这个标准现在还只是一个半吊子,第一版都还没有推出来,如果我们要使用Unicode标准的话,先得将标准完善,之后才谈得到区间分配和下一步的工作。”
“小李的意思,是咱们先将GB 13000用起来,之前已经有了搞GB2312的基础,搞这个路子熟,见效快。”
“而肘子的意思,是我们一开始就搞Unicode,一步到位,既然Unicode标准还没拍板,那我们就积极参与进去,连标准一起搞!”
“要是真的能够做到肘子所说的这样当然是最好的结果。可是,我们有那个实力吗?”辜老对国家信息产业起步猛追的印象还是有的,担心的是凭借国家现在的技术力量,完不成这项工作。
“其实这项工作他们基本已经完成了的。”李红江说道:“大多数计算机采用米国标准信息交换码也就是ASCII码,它是表示所有大小写字母、数字、标点符号和控制字符的7位编码方案。统一码已经给ASCII码完成了编制,将'\u0000'到'\u007F'对应全部128个ACSII字符。” “也就是说,计算机系统其实已经可以使用Unicode编码了,只是还没有形成大的标准而已?”
“需要完善的地方还有很多。”李红江说道:“当然既然ACSII问题都解决了,至少架构是已经成熟了,其余都是小问题。”
“如果,我是说如果,我们能够拥有一个十万级的码位空间内容供他们填充的话,我相信联盟是会非常感兴趣的。”
后世有一句话,叫做“一流企业做标准,二流企业做品牌,三流企业做产品”,现在的GBK和Unicode,其实就是标准之争。
周至补充道:“这是牵一发而动全身的大事儿,说白了就是标准之争。”
“我们中国如今在世界信息产业里边的话语权,可以说是微不足道,但是汉字字库,完全可以称得上是特殊资源。”
“只怕是全世界所有字母语系的国家,将全部符号加起来,都还没有中国的汉字多。”
“如果我们先完成了这个字库,那么对于Unicode来说,就可以作为其其绝对优势成果像世界展示。”
“就好比GBK还在使用坦克加农炮,而Unicode,已经引爆了一颗氢弹。”
“我们完全可以拿着自己的成果,支付会费,成为组织会员。”
李红江对这个组织做过一些研究,说道:“统一码联盟,是位于米国加州的Unicode组织,他们其实是允许任何愿意支付会费的公司和个人加入的。”
“八十年代末成立了两个机构,一个是Unicode组织的商业机构,一个是和国际合作的国际标准化组织。在计算机普及和信息国际化的需求下,他们分别各自成立了Unicode组织和ISO-10646工作小组。“”
“他们不久便发现对方的存在,大家为着相同的目的而工作,于是两个组织便共同合作开发适用于各国语言的通用码,而且相当有默契地各自发表Unicode和ISO-10646字集。虽然实际上两者的字集编码相同,但实质上两者确实为两个不同的标准。”
“统一码联盟在前年年首次发布了The Unicode Standard。Unicode的开发结合了国际标准化组织所制定的ISO/IEC 10646,即通用字符集。两者在编码的运作原理上其实是相同的。”
“但The Unicode Standard包含了更详尽的实现信息、涵盖了更细节的主题,诸如比特编码、校对以及呈现等。甚至还枚举了诸多的字符特性,包含了那些必须支持两种阅读方向的文字,比如普通阅读的由左至右方向,和阿拉伯文那样由右至左的方向。”
我的个去!周至的眼神和辜开来,旦增的眼神在空中瞬间交汇,中国古代典籍的阅读习惯,也是从右到左的!
阿拉伯语用得,我华夏典籍也用得!
(本章完)