中国哲学书电子化计划 | |
简体字版 |
字符识别
君 |
字符识别对具体文字记载进行抽象化。 |
本站主要收录以两种不同模式表示的电子资料:第一是以数位化字符表示,第二是以影印图案的方式表示的内容。数位化字符(如:原典资料库和维基区上的文献)可打字输入、复制、贴上、检索等;影印图案(如:电子图书馆中的影印资料)则虽不能像数位化字符那样处理,但能完整地反映文献实际的原貌。
这两种模式各有其长,只使用其中之一不足以达到所有目的。
所谓字符识别(OCR)指的是把以图案方式表示的文字转换成以文字方式表示的自动程序。本站把字符识别应用到中国历代传世文献(如:四库全书等文献),以便提供更方便的查询方法。
利用字符识别连结影印底本
图像和文字之间的关系。 |
当数位化字符的原典文字版及其相关底本的影印本并存时,电脑可以透过字符识别把已有的文字版中的文字和影印本的对应页面自动作出连结。连结之后,可以提供文字版和影印本之间的图文对照,方便查询影印底本,确认文字版的准确性。
当一段原文有这些讯息时,系统会在段落左手边显示图标。点击此图标就会打开电子图书馆中的相关页面。若要突显其中个别的字词,请先在文字版中检索,再点击影印本图标。
字符识别原始资料
进行字符识别而没有对应的文字版时,可以利用字符识别打造文字版的初稿。一般情况下,尤其是当传世文献影印本的内容不清楚或有损坏、缺漏等情况时,所得出的文字版可能会有不少错字。
尽管如此,透过字符识别而得出的文字版初稿有一个好处,就是文字版的每一行字和影印本底本的相关页面已经有连结。因此虽然文字版初稿包含错字,它仍然可以提供一种方法在影印本中快速地检索文字内容或确定文字版的准确与否。
与上述的情况同样,点击段落左手边所显示的图标就可以进入电子图书馆中的对应页面。若要突显其中个别字词,请先在文字版中检索,再点击影印本图标。
检索具有字符识别连结的原点文献
所有具有连结的原点文献,无论是通过自动连结还是原始文字识别初稿,在本站上都以普通文字版的方式展现,因此其基本检索方法与其他原典相同。已连结文献的优点在于当使用者通过检索或浏览的方法进入到原典的某一特定部分时,即可立即跳至电子图书馆对应页面的扫描版。
检索有字符识别连结的原点时,要先找到原典数据库、维基区或图书馆中的相关资料:例如,图书馆中的资料绝大部分都已经至少有一项已连接的资料。查到资料之后,就可以浏览资料内容:原典数据库或维基区的资料,可按卷、篇等浏览;图书馆中的资料可按页、卷、篇(若有)浏览。在具有影印连结的原典进行全文检索时,检索结果会以一般的方式显示。点击段落左手旁的图标即可跳至图书馆中对应页面,并突显所检索的字词。
例如,假设在维基区中已检索并得出下述结果:
点击图标将会跳至电子图书馆中的对应页面:
纠正错字
简单修改模式
当文字版有影印本连结的时候,可以直接从图书馆的相关页面上作出文字版的修正。点击图文对照右下的“简单修改”连结,系统就会以简单化的方式显示该页对应的文字版内容。
在“简单修改”模式中,每一行文字对应于影印本中的一栏文字,而分段号以"<p>"表示。请不要在“简单修改”模式中增加下面所提及的其它符号或代码。
例如,上面图中页面的对应“简单修改模式”如下:
完整修改模式
经过字符识别而打造的原典初稿存放于网站的维基区,以便使用者集体参与校改和编辑活动。以下会介绍与字符识别相关的编辑情况。如果您没有编辑过本站维基区中的文献,请先参考维基区的使用说明,再阅读下面的介绍。
维基区使用特别的编码把原典文献的文字和对应的影印资料相连结。相关的编码如下:
功能 | 范例 | 说明 |
---|---|---|
影印页首 | <scanbegin file="1234" page="5" y="6" /> | 代表此编码后出现的文字为影印资料中某一页在电子版中第一个对应的文字。如果有"y"项目,项目值表示第一个对应文字在影印资料中从页首算往下多少汉字的距离。 |
影印页尾 | <scanend file="1234" page="5" /> | 代表此编码前出现的文字为影印资料中某一页在电子版中最后一个对应的文字。 |
影印页分栏 | <scanbreak file="1234" y="1" /> | 代表此编码后出现的文字在影印资料中出现在新的一栏。如果有"y"项目,项目值表示第一个对应文字在影印资料中从页首算往下多少汉字的距离。 |
栏中空格 | <scanskip file="1234" y="1" /> | 代表此编码后出现的文字在影印资料中离前面的文字往下算几个汉字的距离。"y"项目值代表往下多少汉字的距离。 |
假如在维基区中编辑上述所引用的页面,则会显示如下(图案中,使用者已选择了页面对应内容以突显对应部分):
局限性
为了对尽可能多的原典文献达到尽可能高的准确性,在进行字符识别的过程中系统会对影印文献结构做出一些预设。这些预设提高对大部分文献核心内容的准确度,但同时意味著其它几种讯息或页面结构无法正确识别。目前这些无法识别的内容包括:
- 复杂页面结构(如:内容不完全属于一组栏)
- 封面页或过大文字
- 罕见字或楷书、隶书以外的字体
- 图像、图表、表格