Ontology是什么?- -| 回首页 | 2005年索引 | - -Ontology 与图书馆:蒋老师的问题(二)

ongtology 与图书馆:蒋老师的几个问题(一)- -

                                      

蒋老师谈到Ontology是提出了5个问题,如下:

⒈与叙词表相比,O的语义表示功能改进有多大?
⒉O能实现完全的自然语言标引吗?
⒊O的成熟能带来自动标引的实现吗?(这一问题与第二个问题有关联)
⒋O方法能成为未来网络信息检索的发展方向吗?
⒌O理论能为知识组织理论带来革命性变化吗?

坦率地说,这几个问题,不是三言两语能回答的,更何况我是从图书馆学角度切入这个问题,理解起来可能和计算机专家相比有很大的片面性,我同时真诚邀请keven兄也帮我作答。

WEB的兴起及其局限

      在讨论Ontology前,我们不妨先回顾一下WWW的产生。非常有意思的是,Web这项20世纪最重要的发明之一,既不是计算机专家发明的,也不是图书馆专家发明的,而是两个电气工程师出于业余爱好而发明出来的。虽然这是一项伟大发明,但是由于是业余爱好的结果,这项技术显得不那么专业,一生出来就有点缺陷。其最大的局限性是信息组织是按文件系统方式组织的,文件系统是一种比较老的计算机信息组织方式。早在20世纪60年代,计算机的信息组织就发展到数据库系统,数据库作为一种结构化的信息组织方式,大大提高了信息的查询效率。但是Web却没有采用这种方式而是采用了古老的文件系统方式,现在遇到的很多问题都源自这里。所以,Web出现的第一个遗憾是,如果web是计算机专家发明的,当时一定会利用数据库方式在组织web文献的,这样,基于Web的信息组织效率就提高很多拉。另一个遗憾是web不是我们图书馆学家发明的,早期的we主页居然不对页内的信息作标注,大家只是通过超链接来浏览web。最早的雅虎就是利用这种超链接提供网络导航服务的。如果web是由图书馆学家发明的,他一定会想到将信息进行标引,而不是眉毛胡子一把抓地放在网页中,因为我们图书馆界100多年前就发展起信息标引方法了。所以,由于web是一个文件系统,我们不能像处理数据库那样进行索引,只能通过一种叫做“网络机器人”的软件来发现信息。由于web页中的信息是非结构化的,“网络机器人”搞不清信息的含义,发现起来很困难,以前查google或雅虎,终能找到一些啼笑皆非的结果,原因正是在此。为了解决这个问题,我们图书馆人就作了很重要的尝试,都柏林核心就是在这个背景下出现的。人们想到应该将网页中的信息结构化表达出来,让机器人可以自动识别。这就是“语义web”的缘起。当时人们将数据标识的放在HTML的《META》中,好让"机器人"能够发现和识别。

从HTML到XML

      众所周知,HTML是WEB的基本描述语言,然而,HTML过于简单,缺乏结构性,当WEB的应用已经不再仅仅是在网上公布信息后,HTML就显得力不从心了,尤其是随着电子商务的兴起,web的主要功能和价值不再仅仅是信息公布,而更重要的是提供web 服务(WEB Services)。我们可以通过WEB购买机票什么的,其基本要求是web页面支持信息交互。为了克服HTML的局限性,人们扩展了HTML,发展出一种具有很强灵活性的标记语言,XML。XML是HTML的扩展,同属于SGML,所以XML的出现不需要改造web的基本结构,同时XML具有非常强大的灵活性,可以满足任何web应用对标记语言的要求。但是正如有学者指出的:

“The Best thing about XML is that it is so flexible.”

“The worst thing about ML is that it is so flexible”(Miller, D & Clarke, K., 2004)

XML和RDF

      也正是XML太灵活了,人们可以随意以自己的方式使用这反而影响了XML的使用。我们知道,基于计算机系统的信息交流只能是“有限的自由”,因为计算机是一个傻子,我们和她交流只能一板一眼进行。为了克服XML的灵活性带来的弊端,人们(W3C)又制定出一种规则,叫做资源描述框架(RDF),这个框架要求人们通过XML表述信息是应该遵循一定的规范,规范之一就是RDF。RDF是一种框架,也是一种比较简单的框架,但是怎样将信息放到这个框架中去,让“机器人”能够识别其基本语义含义?RDF却管不了,它只是制定了一种表达的形式化框架。RDF只是一个空箩筐,至于在这个箩筐中放什么,怎么放,RDF不管,但是我们图书馆员却要管,按我们的职业习惯,我们怎可以在一个空间(空箩筐,空房子什么的)乱七八爪地放东西呢,我们的职业习惯是整理,要把书有序地组织在书架上,让读者可以拿到,我们还要将书在书架上摆放整齐。对于网络空间也是这样,我们怎能容忍没有规则?为此,我们图书馆界(以OCLC牵头)提出了一种将这个空箩筐归类的方案,那就是DC,都柏林核心。都柏林核心就是一种ontology。

Ontology

      我们图书馆员对DC太熟悉,所以理解Ontology也就不难了。Ontology也不是什么了不得的东西,它只是提供了一种形式化的描述实体的框架,描述一个实体原理其实很简单,你要有一个名字,比如,书本,这个东西是“书本”,光说书本还不够,书有太多种类的书,如果只是笼统地说书本,恐怕不能很好地反映不同书本之间的差异,这就要求进一步描述书本的细节,为此我们首先要制定一种框架,告诉大家则那样能够来表述一本书,否则,你说你的我说我的,最后什么也说不清。这就是所谓属性描述(Attributes),如书名,作者什么的。一个Ontology就是术语体系来规定一个事物的各种属性的描述,这个事物小到一本书,大到一个学科。这个术语体系包括术语,术语之间的关系描述和术语的规则三位一体。在现阶段,属于之间的关系主要是上下位关联关系,也就是一种等级化的逻辑关系,这里又可以见到咱们图书馆的影子,我们的分类法就是一个Ontology,图书馆界用Ontology比计算机学家早百年(百年前还没计算机学家),搞Ontology应该很熟悉的。我们分类一本图书,将复杂的图书馆内容特点利用分类法一下子就用简单的代码描述出来,Ontology也是这样,它将复杂的信息实体形式化地描述出来,使之计算机能够识别其含义。说句大白话,那是一个变傻的过程,人类的语言非常丰富,但是计算机这个傻瓜只能识别简单的语言,Ontology就是将人类丰富多采的语言简化,使得计算机能够搞懂,即所谓形式化。至此,请允许我引用Gruber(1993)对Ontology的定义:

An Ontology is a formal, explicit specification of a shared conceptualisation.

目前Ontology关注的关系只是一种上下位的纵向关系,和我们分类法一样。但是分类法在我们图书馆界已经是昨日黄花了,在图书馆界,我们不仅关注概念之间的上下为关系,更重要的是关心概念之间的横向关系,这种关系怎样放到Ontology中去,这是一个问题。KEVEN兄在搞“语义架构”,可能建立出一个基于横向关系描述的Ontology模型,我们期待着。

参考文献:

Gruber, T. R. (1993). A translation approach to portable ontology specifications. Knowledge Acquisition, 5, 199-220.

Miller, D. R., & Clarke, K. S. (2004). Putting xml to work in the library: Tools for improving access and management.Chicago: ALA.

- 作者: rainzen 访问统计: 2005年07月19日, 星期二 22:33 加入博采

Trackback

你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=2324201

博客手拉手

[2005-07-19]    爱你

[2005-07-19]    一粒种子

[2005-07-19]    7392 公路建设市场管理办法实施与招投标规范化管理及工程项目全程监管实用手册(带光盘)

[2005-07-19]    My love

[2005-07-19]    君生我未生,我生君已老 (转贴)

回复

- 评论人:微笑   2005-07-22 08:51:36 

一早拜读了雨僧老师的这篇文章,让我明白不少。 谢了。

评论内容: