《中国史研究动态》1998年第8期
利用国际互联网络进行《二十五史》资料检索
陈爽
信息化时代对传统史学的发展提出了挑战,也为史学研究的现代化提供了种种便利。利用电脑等现代科技手段对中国古籍进行整理、分析和研究,已成为学界当务之急。使用电脑进行史学辅助研究,最为可靠和最为直接的手段是电脑建立资料库,电脑检索具有速度快、准确度高和搜寻范围广的特点,从而把学者从枯燥的翻检工作中解放出来,把主要精力投入到更深层次的分析比较和理论思索中。
就现阶段而言,大陆的古籍资料库多处在初创阶段,规模较小,多为各研究单位内部使用;与大陆相比,台湾古籍资料库的应用起步较早,技术力量雄厚,许多系统已具备相当规模,并已投入网络运营。随着电脑在大陆的普及以及国际互联的不断发展,网际查寻已成为可能,但是,由于大陆电脑汉字编码与台湾不同(大陆使用简体国标码,收录汉字6700余字,台湾通行繁体大五码,收录汉字近14000字),文字编码上的差异阻碍了海峡两岸学术交流,近年来,随着大陆软件的不断发展,以四通利方和中文之星为代表的支持多内码转换的中文平台不断完善,这一障碍已基本得到克服,
二十五史检索系统是台湾中央研究院历史语言研究所(史语所)与计算中心合作开发的古籍资料库。这一资料库创建于1984年,早期是将历代正史中的食货志录入电脑,编成数据库,随后录入范围扩大到二十五史,现已全部完成,全文近四千万字。二十五史所选用的录入底本,是台湾鼎文公司翻印的大陆中华书局点校本(台湾称为“新校本”
),多名台湾学者参与了校订工作,每部史籍都经过至少4次校阅。对于校阅中所发现有疑误的文字,经查对该书三种以上之主要版本(如百衲本、武英殿本、汲古阁本等),并参照中华书局校本後,确定系点校本排印时未校出之错字或所据以排版之刻本之误字时,始加以更动。改动数量不大。对于这套检索系统,近年来大陆学界或有耳闻,心仪已久。
二十五史检索系统隶属于台湾中央研究院全文检索系统,后者的所有资料包括人文资料库师生版1.1
(中央研究院编,内容摘自下列资料库, 47,105,213字)、二十五史(史语所汉籍全文资料库计画,
39,969,533, 检索 30 笔,不能浏览正文)、 诸子 (7,267,407字, 付费使用)十三经
(8,600,316字,付费使用)、 古籍十八种( 8,049,602, 付费使用)、古籍三十四种(
12,264,715字, 付费使用)、大正新修大藏经 (10,118,213字, 付费使用)、
上古汉语语料库-摘要 (语言所文献语料库研究室资讯所词库小组及史语所汉籍全文资料库计画,
830,985字)、 台湾方志 (台史所史籍自动化室编, 7,537,840字, 检索 30 笔)
台湾档案( 7,100,885字,检索 30 笔)、 文心雕龙(资讯所文献处理研究室编,
1,700,011字)、佛经三论 (104,257字)、中华民国史事日志(近史所编, 1,452,451,
检索 30 笔) 姚际恒著作集( 文哲所资料提供、计算中心资料库建立,951,560字)、新清史-本纪
(国史馆清史组编, 878,629字)乐府诗集 (师大国文系制)等内容。其中,二十五史检索系统在网络中属于有条件的开放,限制条件是能够检索史籍,但不能全文浏览,检索结果只能显示前30个段落。
这一系统的检索范围包括二十五部正史中的本纪、列传、志、表,乃至校勘记的全部内容,可选择某一部史籍单独检索,也可选择多部史籍组合查寻。查寻结果以段落显示(显示检索语词所在的段落正文,并将所检索的语词用红线标出)、列表显示(显示检索语词出现的次数以及每一条所在的卷数和页码),前者由于使用权限的限制,不能显示出现频率过高的语词,后者基本没有限制,检索结果与大陆通行的中华书局标点本页码完全一致,并能通过文件的内码转换储存以简体中文的方式在查寻者的电脑中,进行编辑修改和打印输出,为研究工作提供了极大的便利。
进行网络查寻的微机最低硬件配置建议为586以上电脑一台,8M以上内存,144以上调制解调器一部。微机软件配置为windows95(简体中文、英文均可)、支持多内码转换的中文平台(四通利方Richwin4.3以上版本或中文之星2.5以上版本)、WWW网络浏览器(微软Internet
Explorer3.0以上版本或Netscape Navigator3.0以上版本)并有相应的INTERNET入网帐号。
在网络查寻二十五史资料的基本步骤大致如下:
1)进入主页:拨号入网后,启动WWW网络浏览器,在网址选项中键入台湾中央研究院的计算中心网址http://www.sinica.edu.tw/ftms-bin/ftmsw3,进入检索主页。
如启动微软IE3.0,在地址一栏键入http://www.sinica.edu.tw/ftms-bin/ftmsw3,按确认键,数秒钟后,屏幕会显示出若干乱码。
2)内码转换:,启动一个多具备内码转换的中文平台(推荐四通利方97版、中文之星2.97版)。并将内码切换为BIG5繁体中文。
中文平台可在浏览器开启之前悬挂,也可在浏览器打开之后再启动,以RICHWIN97为例,当屏幕出现乱码时,用鼠标点中四通利方图标,把“国标(简体)”选项改为“大五码(繁体)”,屏幕上的乱码就会转变为“中央研究院计算中心汉籍全文资料库(瀚典全文检索系统
1.3 版)”的字样。
3)进入检索:在文献列表中选中二十五史一项前的复选框(把空白的圆圈点黑),用鼠标单击主页上方的“执行”按钮,进入检索系统。
4)执行检索:选中所要检索的史籍,打开中文平台中的汉字输入法,在检索条件中输入所要检索的语词,用鼠标单击“执行”键,数秒后,检索结果便会显示出来。
以检索《新唐书》中“柱国”一词为例,可在四通利方输入法中选中“多元拼音”,用全拼在“检索条件”一栏输入“柱国”,并在所列25种正史中选中“新校本新唐书”,用鼠标单击“执行”键,数秒后,屏幕上会出现“费时1秒,找到53段,限阅前30段”的字样,下方则出现相应的段落。
5)输出结果:如仅需要索引可用鼠标单击屏幕上的“检索条列”,显示篇目、卷数、页码,如需要浏览原文可选择“检索报告”。
屏幕上共有“资料库”、“根目录” 、“回上层” 、“检索条列” 、“检索报表”
、“部分显示”几个选项,如点中“检索条列” ,一个完整的索引便显示出来:
“1./新校本新唐书/本纪/卷一 本纪第一/高祖皇帝李渊/武德以前
... 1
2./新校本新唐书/本纪/卷一 本纪第一/高祖皇帝李渊/武德元年
... 7
3./新校本新唐书/志/卷十五 志第五 礼乐五/吉礼五
... 377
…… ……
52./新校本新唐书/列传/卷二百二十 列传第一百四十五
东夷/新罗 ... 6203
53./新校本新唐书/列传/卷二百二十五上
列传第一百五十上 逆臣上/赞曰 ... 6434
如果检索到的条目不超过30个,还可按“检索报表”选项,把检索到的内容全文显示出来。
6)保存文件:在浏览器中将查寻结果以纯文本的格式保存下来。注意,另存的默认选项是超文本格式(HTML),这种格式的文件只能在浏览器中查看,应把它改成易于编辑的纯文本格式(TXT)。
在线查寻费用(包括电话费、网络使用费)较高,将查寻的结果保存起来,可以极大地提高工作效率。仍以上文“柱国”一词检索为例,点中IE浏览器中的“另存为”选项,将其中的文件格式由“HTML”改为“Paint
Text(txt)” 将文件取名(如tang1.txt),存入一个自己事先建立好的目录中(如c:\file\)。还要特别注意的是,与检索时间相比,网络传输速度较慢,不要对屏幕上“检索完毕”的提示产生误解,一定要等检索结果全部显示完毕后再保存,否则保存的文件内容会不完整。保存结束后,可继续检索其它内容。所有工作结束后,可关闭浏览器,挂断网络连接。
7)文件转换:打开中文平台中所附带的多内码文件转换器,将保存的繁体大五码文件转换为简体国标码文件。
如果希望检索结果以繁体打印,自己中文平台支持自带繁体打印字库(如Richwin97、中文之星2.97),可启动中文Word等编辑系统直接打印输出。如果需要将繁体汉字转换成简体,可在中文平台上启用“多内码文本转换器”,选中要转换的源文件(如c:\file\tang1.txt,BIG5码)转换为目标文件(如c:\file\tang1-1.txt,GB
码)。
8)文件编辑:启动任意一中文编辑系统,打开文件夹中所保存的文件,通过手工操作把转换中丢失的格式补全,并改正部分有歧异的汉字。
现有的中文平台的文件转换功能还不够完善,转换中会出现一些丢失格式(主要是分行符和个别标点),一些原系统中自造的字转换后变为空格或“??”
,还有一些古籍中容易引起歧异的字,还需要使用者自行编辑改正。
以上步骤完成后,一般可形成两份材料,一份语词索引,一份段落显示,如果段落较少,便可直接使用,即使段落超过30条的,也可依照索引按图索骥了。需要注意的是,录文对中华书局点校本做有所改动,如仅用于查寻,可以忽略非关键词语的错误;如需引用,原文,则应与点校本对读校正。
以上步骤仅仅选择了一些较为通行的软件配置进行了介绍。检索系统提供了一些在线帮助,有助于使用者迅速掌握检索方法,此外,系统还提供了一个电子信箱linshi@sinica.edu.tw,听取使用者的意见反馈。
“说有易,说无难”一直是史学研究的难点所在,只有高速度、高效率地穷尽史料,才能准确地把握历史发展的脉络。利用国际互联网络检索二十五史资料,为大陆学者提供了一个丰富的学术宝藏,要利用好这一宝库,除了掌握好先进的电脑知识外,还必须具备扎实的学术功底。电脑检索毕竟是学术研究的辅助手段,缺乏基本的史学素养,再先进的检索系统也只能是无的放矢。只有博闻强记,才能融会贯通。
附记:本文成稿于一年以前,步骤写的很详细,甚至有些繁琐,目的是让那些从未上过网的人也能够一步一步学会网上检索。一年来,网络迅猛发展,浏览器和中文平台也发生了很大变化,文章中介绍的某些些软件已经显得有些落伍了。一年来,我个人在网上古籍检索方面也积累了一些经验,准备在适当时候对本文进行一些补正。