注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

魏武挥的博客

 
 
 

日志

 
 
关于我
网易考拉推荐
GACHA精选

词媒体  

2010-05-24 14:37:04|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

网易《数字与人》专栏上周一文章

—————— 全文的分割线 ——————

今天,这个社会的造词能力是越来越强了,新词出现的频率史无前例得在加快。有些新词,一望便知,比如“囧”这个词(字),虽然有考据者反复说这个字的本意不是如此,但看上去是颇有些尴尬的形象,算是给老词赋予新意。而有些词,则背后代表着一个社会事件,比如“正龙拍虎”,不明白那个事的,的确完全不了解这是什么意思。

另外一个社会现实是知识分得越来越细,在今天,没有人敢说自己诸子百家无所不晓,天上地下博古通今。知识分得越来越细的结果就是,大量专业词汇出现。在一篇很普通的文章里,出现几个专业名词不是什么怪事。为了更好地理解文章,人们的确有必要去知道这些专业词汇到底指代什么。

在大多数传统媒体里,很难对专业词汇或新词做比较详尽的解读。唯一能做到的,是书籍。这也正是我们经常看到的书本中的所谓注释。在报刊杂志,在电视广播,专业词汇的解读只能匆匆带过。但互联网的链接属性,给这种解读带来了莫大的方便。

比如在一篇常识性的金融文章里,作者提到了“布雷顿森林体系”。报刊杂志可能会在最后给出一段小小的解释,电视能做个小字幕,广播则不可能——不是泛泛而谈,就是无能为力,但对于网页来说,只需要给这七个字加上一条链接:指向这个词的解释页面,而这个页面里的内容,可以极其详尽。

呵呵,是,这个解释页面,非常像维基或百科的形式。于是,国内有家做百科的网络公司,不遗余力地在鼓吹所谓:词媒体,并坚信,基于词媒体带来的web广告模式是未来可期的商业逻辑。

词媒体要分两个方面来看。

就阅读而言,词媒体会更好地帮助读者去解读文章,帮助读者去增进知识。词媒体所指向的维基式页面,也会由于“人人都可以编辑”而让内容变得更为翔实和丰富。而对于写作者来说,也没有必要煞费苦心地在文中去解释这些词的含义,一来避免显得冗长,二来不破坏文章结构。词媒体的确符合互联网的内容组织形式:网状的跳跃式的结构。

但从另外一个角度看,词媒体的实际操作性,还有很大的问题。

前面我提到在文中部署对专业词汇的链接,这其实一个“自动链接”的操作手法。因为你很难想象,在比较大规模的网站中,完全依靠编辑去手工部署链接。自动链接的运作机制是这样的:系统需要扫描一遍整篇文章,再和数据库中已有的专业词汇库比对,如果有,则赋予链接,没有,则跳过继续扫描下去。

这个机制说起来简单,但做起来相当消耗资源。如果你的专业词汇库不过千把词,那是一个很快的比对过程,但如果是十万乃至数十万之巨的专业词汇库呢?更进一步的,这里同样有一个“分词”问题——系统需要判断在“销售和服务”这个字段中,无需添加“和服”的自动链接——以及一个优先级的问题:在“复旦新闻学院”这个字段中,究竟将自动链接赋予新闻学还是复旦新闻学院。

在水平性质的门户网站中,使用同一套专业词汇库是不现实的。但在它的某个频道,或者说,在一些专业垂直网站中,使用一套契合的专业词汇库还略有操作性。不过,对于百科式的词媒体内容服务商而言,它面临一个两难的问题:如果词汇够多,合作者的系统负载就比较大;如果词汇不多,合作者就没必要合作,自己建一个不是什么难事。

比较可行的做法是提供API接口,让合作者自行定义关键词词汇表,并利用这个API接口,将这些词汇链接指向到百科页面上。这样,对于合作者而言,词汇库的大小以及带来的负载问题,完全由它自己决定。有实力的,可以搞得大点,没有实力的,借助点缓存技术、伪静态页面技术,就稍许搞得小点。不过,在我看来,百科网站起步期间最好的合作对象还是垂直网站,而不是水平门户。


Copyleft © 2010 知识共享署名-非商业性使用-禁止演绎 注意:转载勿改标题!
ItTalks -- 魏武挥的Blog (digitalfingerprint:fc4f8fc31f70097eea4b780b13146415)

欢迎 follow我的twitter 分享我的分享

与本日志可能相关的文章有:

词媒体 - 魏武挥 - 魏武挥的博客 词媒体 - 魏武挥 - 魏武挥的博客 词媒体 - 魏武挥 - 魏武挥的博客 词媒体 - 魏武挥 - 魏武挥的博客 词媒体 - 魏武挥 - 魏武挥的博客 词媒体 - 魏武挥 - 魏武挥的博客 词媒体 - 魏武挥 - 魏武挥的博客
  评论这张
 
阅读(245)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017