BCC大规模在线语料库系统
完成单位:北京语言大学

产生时间:2014

支撑项目(平台):北京语言大学信息科学学院

参与单位:北京语言大学

所属学科:中国语言文学

主要贡献者:荀恩东,饶高琦,于东,王诚文,王贵荣,陆梦烨

成就简介:北京语言大学语料库中心(BCC)是全球规模最大、功能最强的在线中文语料库系统。BCC极大助力人文社会学科的计算转向。该系统累积访问已超亿次,海内外论文引用近四千次,影响力波及多个领域和几十个国家。

语料库是计算语言学和语言学研究的必备基础。优质的大规模语料库系统对语言学、计算语言学等领域的学术研究、系统研发都具有重要意义,是这些领域科研和开发的数据基础设施。

“北京语言大学语料库中心(BLCU Corpus Center,简称 BCC)”是以汉语为主、兼有其他语种的在线大规模语料库系统,是目前全球规模最大、在线服务功能最强的中文语料库系统。BCC总规模达一百五十亿字,是服务语言本体研究和语言应用研究的在线大数据系统, 并以其海量规模语料和分领域设计,反映了现代汉语和汉语生活的全貌。为应对海量规模检索,BCC课题组设计了多层多标签字符串结构,以实现高并发,秒级延迟检索反馈。BCC检索式由字、词和语法标记等单元组成,并且支持通配符和离合查询,支持历时检索和可视化反馈。这些都集中体现了建设单位在信息检索、计算语言学和传统语言学研究上的积累和水准。

2014年BCC全部频道上线服务,BCC的子频道HSK语料库于2007年上线。BCC在线语料库系统累积访问量已超亿次,日均访问八万余次。BCC语料库系统以强大的数据检索功能和友好的用户体验,为海内外语言学研究和人文社科研究所广泛使用,产生巨大影响,对大数据时代以语言学为代表的人文社会学科的“实证主义转向”和“计算转向”起到了潜移默化的推动作用。基于BCC数据服务发表的国内外学术论文,据不完全统计达到三千九百篇以上(截止2018年7月)。其中国内论文三千一百篇,涵盖中国语言文学、外国语言文学、计算机软件及应用、互联网技术、初等教育、教育理论和管理、中等教育、文艺理论等多个学术领域。国外论文八百余篇,引用来自美、 英、 法、德、瑞、俄、韩、日、泰、越、印、巴、阿、缅等几十个国家,产生了较大的国际影响力。

在语言传播方面,BCC语料库在汉语国际教育、语言教学、辞书编纂等领域也具有重要影响。尤其值得一提的是,BCC语料库诞生于北京语言大学,跟随北语庞大的海外汉语教师和留学生群体,其影响力已经触及海内外汉语和汉学教育界。BCC语料库被众多海内外教师称为教学、备课必用工具,成为了服务“民心相通,语言铺路”的数据基础设施。

BCC服务结构

BCC主页面

扫码关注

“高校科技进展”微信公众号