3月22日-25日法国华裔学者、汉语“百宝箱”数据库主要研发人夏诠真先生及其团队访问51吃瓜网 - 全网更新最快最全的吃瓜网站 ,一方面共同研讨汉语语素的分析、描写与编码等学术和语言工程问题,一方面为研究生开办讲座,对学生进行数据库建设和使用培训,以提高他们运用数据软件处理语料的能力。
在23日的研讨会上,夏先生与会师生介绍了汉语“百宝箱”软件研发的新进展和新的技术思路。《汉语同韵大词典》、《中华联语词典》编纂者邓治凡老师,语情中心赵世举、赫琳、阮桂君等教师及硕博研究生参加了本次交流会。
据悉,“百宝箱”系统由三个部分组成,一是以关系数据库形式储存的汉语知识库,二是由中性码和词句码组成的代号系统,三是人机合作的智能输入输出系统。在此次交流活动中,夏诠真先生详细介绍了“百宝箱”独创的着眼语义的代号系统。中性码和词句码是以含义为编码规则的新汉语代号。中性码也叫语素码,词句码则是以语素为词和短语定义。如今全世界使用的汉语代号系统是国际统一码,它只根据字形编码,不考虑汉字的意义尤其是多义或多音的特性,妨碍了汉语信息的精准搜索和分析。夏诠真先生多年来一直主张为词和短语编码,认为只有将词和短语编码才能很好地理解、翻译、搜索和分析信息。改用语素为词和短语定义是一个庞大的工程,也是前所未有的尝试。此次访问语情中心的主要目的就是与师生探讨如何定义“中性码”和“词句码”。
在自由讨论环节,在场师生就编码设计中语素的切分、归并与描写这一问题展开了深入探讨。语素分类的粗细度是“中性码”和“词句码”设计的难点,大家集思广益,就其可行性和攻克难题的途径,提出了不少建议,也达成了基本共识。(丁岑)