收录及处理原则
资料选择原则
尽可能是开放获取的、容易处理的、系统的、电子化的。
其次包括(作者本人)以线下访问、借阅、馆际互借等各种方式可从图书馆获取的纸质图书。
新添加的人名资料,首先考虑与已有资料重合度不高的。
姓名处理规则
- 没有对应 unicode 编码的字符不录,也不使用生僻字的代用符号或近似字符表示。
- 缺失、模糊、未释的部分不录。显示的结果中可能没有姓(特殊类别或早期人名数据的特点),但不会有缺字符号“□”。如遇到缺字符,应为系统未安装支持Unicode CJK扩展区显示的字体之故(移动端常见,可改用桌面端设备),请参中国哲学电子书计划(ctext)的字体测试页。
- 不确定姓名划分方式的。视数据量大小区别处理。数据量大的,倾向于删除;数据量小的,倾向于保留,尽量依据已有的学术成果或历史常识分类。
- 同名异写的情况不合并;人名中或包括文献中惯用的前缀人称修饰词(如“僧”),虽然并不是姓氏,但因其扮演了姓氏的角色,也一并保留。
- 论文及出版图书中一般选择系统性的名录索引,选释之类的结果暂不收录。
- 一般不另行检索文献校订,除非已有针对性的订补文献。