“不过对于构建信息化字库来说,让程序识别字根,会让我们的效率得到巨大的提高。”

  “原来如此。”冷玉龙点头:“那我们再说回《字海》。”

  “汉字有新旧字形之别,因此我们在《字海》,字头还是采用新字形;而在《印刷通用汉字字形表》以外的字头,则依该表原则作了整理;”

  “那就是相当于制作了一部新的,概括范围更大的《印刷通用汉字字形表》?”周至问道。

  “是的。”韦一心点头:“不过你们的字根法更加科学,不必用回来。”

  冷玉龙也点头表示认可:“《字海》里的繁体字字头后,也附有相应的简化字,简化字范围限于《简化字总表》之内。”

  “《字海》注音用汉语拼音字母,并在其后加注直音,直音以现代读音为据;”

  “多音字读音按常见音项在前,非常见音项在后的顺序排列,无法判断常见或非常见的字音则按引例时代先后排序。”韦一心补充道:“有异读的字,则按普通话语音审定委员会审定音来标注。而方言字,则依方言与普通话读音对应规律或实际读音来注音。”

  “差不多就这些了吧?”冷玉龙问道:“辞书的释义部分和字码没什么关系了,还用讲吗?”

  “讲,我也学习学习。”周至听得美滋滋的,这还是他第一次晓得如何编纂一本《字典》,尤其是释义部分,和字库编纂没有什么关系,因此兴趣更加的浓厚。

  冷玉龙对周至的好学精神很满意,笑道:“释义的话,我们先解本意,次引申义。”

  “对于异体字、简化字、二简字、错讹字,不单独释义,也不注音,但云‘同‘某’’,‘‘某’的简化字’,‘曾作‘某’的简化字’,后停用’,‘‘某’的讹字’等,同时,还要以‘见’或‘字见’的方式,指明其出处。”

  “字以楷书隶书作成字卡,共收汉语单字85568个。主要收字依据一共有十一个来源。”韦一心如数家珍:
  “一是历代辞书,如《说文》、《玉篇》、《广韵》、《集韵》、《康熙字典》等书中收录的汉字。”

  “二是历代辞书未收而见于文献典籍的汉字。”

  “三是国家语言文字工作委员会颁布的《简化字总表》中的全部简化字。”

  “四是甲骨文、金文和竹简、帛书中学术界比较公认的隶定字。”

  “五是历代碑刻中的异体字。当然了,讹字除单体字外,我们一般不收。”

  “六是地方文献和方言辞典中的方言字。”

  “七是近现代出现的科技新字。”

  “八是当今还在使用的人名和地名用字。”

  “九是当今出版物中出现的超出《简化字总表》范围之外的类推简化字。”

  “十是七七年中国文字改革委员会公布的那一版《第二次汉字简化方案草案》中的汉字。”

  “最后就是流行于港、澳、台地区的汉字。在日本、韩国、新加坡等国使用的汉字,本书也酌量收录。”

  冷玉龙补充道:“此外,为了充分反映汉字的实际情况,《中华字海》还酌量收录了历代文献中的新旧笔形与讹字。”

  “这一部分的收字标准,我们采用‘单体字从宽,合体字从严’的规则。一般单体尽量收录,合体字尽量不录。”    “还有最后一部分工作,就是整理过程中的清理。”韦一心说道:“《中华字海》在前任字书未及的异体字与错讹字方面,进行了一些清理与合并工作。在释义当中,尽量将诸多典籍中的释义和释疑尽量找齐,合并到一个字的释义之下。”

  “如(木舟)字,《汉语大字典·补遗·木部》:‘(木舟),树名。’《太平御览》卷七百七十引周处《风土记》:预章(木舟)诸木,皆以多曲理盘结为坚劲也。’但是并未注音。”

  “而《字海》综合《汉语大字典》出版后的一些考释成果释为:“(木舟),同‘楠’。见《龙龛》。”

  “类似这样的后补考证成果,我们也将之补充进《字海》的(木舟)字释义之下。”

  “加上我们自己未能考订确实的《补遗》部分,《字海》其实一共收录了87019个汉字。”

  “太了不起了。”周至不禁感慨:“这可不是把我们要干的活都干了啊?”

  “要点脸。”辜开来不禁翻起了白眼:“什么叫你要干的活?”

  “两位师兄的搜字范围,几乎已经囊括了我们所能想象的全部啊。”周至乐得都不行了:“还是用楷体建卡,我估计自动程序扫描识别的问题应该不大。”

  “那就走吧,先去库房看看。”冷玉龙比周至还急:“要是合用那就捡大便宜了,咱们可以把《字海》的出版工作尽快提上日程!”

  “嗯,等到确定了可行性,我们就去找李国杰教授打擂台!”

  “李国杰教授?”韦一心搜索了一下自己认识的文字学大擘,似乎没有这么个人,转头问冷玉龙:“冷泉你听过这人吗?”

  见韦一心误会,周至方才笑道:“李国杰教授是曙光超算中心负责人,之前我们想要一点运算资源,国杰教授那叫一个抠门啊……这次我们找上门去,堵着他打擂台!”

  北大中文系几间资料室里,冷玉龙和韦一心八年多的心血,静静地躺在这里。

  整个资料室分作了两百多个部分,按照《中华字海》的字头索引方式,分门别类地归纳在文件柜里。

  每一个柜子里都有几个纸箱,箱子里是一个个的文件袋,里边一沓一沓的都是硬纸卡片。

  对于翻习惯了字典的人来说,每一张卡片,其实就是字典上关于一个文字的本字及注解区域。

  卡片左上角是一个标准的大田字格,文字端正的楷书就写在那里,接着是拼音注音,释义,摘引文献等等“凡例类目”。

  将几间大屋子的所有资料一页页铺起来,影印缩小,就是一部《中华字海》。

  或者说,将未来的一部《中华字海》放大,裁剪开,就是这几大屋的资料。

  “应该没问题。”周至看着一丝不苟的字卡,不由得大感佩服:“这连标点的大小和写法,都有规范,每个逗号都几乎一模一样啊……”

  “这是门里的老传统了,逗号需要按照‘日’字格分作上下两个部分,上部为圆形,圆周与‘日’字格边框相切,斜弧线那一笔要头粗尾细,头部从圆与日字格右切点开始,宽度占圆周八分之一,然后收细画弧,笔尖到日字格左下结束。”韦一心笑道:“当然是有规矩的。”

  “时来天地同运力。”周至都乐坏了:“确认了,一个老师教出来的!瀚文字库逗号的矢量化规则也是这样!”

  (本章完)