查看原文
其他

译技术 | BCC汉语语料库:集多领域语料、海量数据、多重功能于一体的数据库

TransLearn 翻译学习共同体
2024-09-10

1. 工具简介
BCC汉语语料库是由北京语言大学语言智能研究院研发的通用单语语料库。汉语语料库总字数95亿字,涵盖了报刊、文学、对话、微博、科技、综合和古汉语等多领域语料,是可以全面反映当今社会语言生活的大规模熟语料库。BCC语料库包括了生语料、分词语料、词性标注语料和句法树,已对现代汉语的语料进行词性标注。
BCC汉语语料库页面清晰简洁,功能丰富,检索分为词典与汉语两个版块,在词典检索版块,呈现词典释义、搭配拓展、义项频率,在汉语搜索版块具有简单检索、历时检索、自定义检索、对比检索四大功能;检索结果呈现方式清晰明了,或柱状图、折线图、饼状图,直观反映数据结果,方便使用者的后续研究与对比。
官网:http://bcc.blcu.edu.cn/lang/zh

2. 图文教程
进入BCC汉语语料库官网页面后,使用者会看到如下图所示的的界面,该界面的上方菜单栏从左到右依次是:[词典]检索功能版块、[汉语]检索功能版块、[登录]键、[注册]键、[帮助]键;界面下方从左到右依次是[新闻]区、[搜索示例]区、[下载]区,以便使用者更好了解BCC语料库,更加高效地利用检索式搜索到所需内容。

2.1 词典检索功能
户点击初始界面左上方的[词典]键,就会进入如下界面。

在该界面可以看到上方呈现搜索框,下方呈现汉语、拼音、笔画、部件查询模块,呈现各部分的统计信息图,如下图所示:

在词典查询框旁,用户可以选择按字查询或按拼音查询。
用户选择按字查询后,可以根据自己的检索需求输入汉字,输入后,点击[检索]键,页面就会呈现检索结果。需要注意的是,在使用按字检索功能时,下方的查询模块必须勾选汉字模块,否则检索结果出现错误。比如在搜索框输入“和”这个汉字,含有"和"的词典条目就会显示,如下图所示:

点击块状区域跳转到具体条目,呈现词语的词典释义、搭配拓展、义项频率,在搭配拓展区域的左上角处,可以选择词语的左邻词与右邻词,以及具体的名词、动词、形容词,在搭配拓展区域以及义项频率区域的右上角处,可以选择切换为数据视图、折线图、柱状图,并可以进行保存。在本次示例中,选择“和平”这一条目,其词典释义、搭配拓展、义项频率具体如下:

用户选择按拼音查询后,可以根据自己的检索需求输入汉字拼音,声调用“1-5”表示,输入后,点击[检索]键,页面就会呈现检索结果。如在检索框输入“he2”后,含有"he2"的词典条目就会显示,点击块状区域跳转到具体条目,如图所示:

选择“和”这一条目,界面就会呈现其词典释义、搭配拓展、义项频率,同样在搭配拓展区域的左上角处,可以选择词语的左邻词与右邻词,以及具体的名词、动词、形容词,在搭配拓展区域以及义项频率区域的右上角处,可以选择切换为数据视图、折线图、柱状图,并可以进行保存,具体如下:

2.2 汉语检索功能
用户点击初始界面左上方的[汉语]键,就会进入如下界面。
在汉语检索版块,语料来源丰富多样,包括多领域、文学、报刊、古汉语、对话、篇章检索等分区,用户可以根据自身检索需求进行分区的选择;汉语检索版块的检索功能包括简单检索、历时检索、自定义检索、对比检索。
1)简单检索
进入汉语检索版块后,无需进行勾选,直接在搜索框输入检索目标,点击[搜索]键,界面就会呈现简单检索结果,结果上方从左到右依次是[统计]键(统计符合检索式的语言片段出现的频次)、[筛选]键(对检索结果进一步剔除或者仅仅保留符合筛选检索式的实例)、[下载]键(下载检索或统计结果,登录用户可以下载10000条,非登录用户下载1000条)、[高级]键(设置检索结果的显示形式,控制上下文字数),在每条检索结果的最左方有[查看]按钮,可以查看出处和更多上下文。以高大的n为例,具体结果如下:


2)历时检索
进入汉语检索版块后,用户点击[历时检索]按钮,进入以下界面。
进入该界面后,用户在搜索框输入检索目标或检索式,页面就会呈现搜索结果,点击图中柱状区域可查看实例,点击搜索按钮右侧的对比按钮可对比两个查询式的检索结果,对于给出的检索式历年的出现频次和频率,在右上角处,可切换为柱状图、折线图两种显示方式,也可以转化为数据视图,并进行保存。以高大的n为例,具体结果如下:

3)自定义检索
进入汉语检索版块后,用户点击[自定义]按钮,进入以下界面。
进入该界面后,用户可以搜索具体书著中的某句语料,即在最上方搜索框输入检索目标或检索式,并在下方搜索框中输入具体著作的名字;或者在报刊、文学、多领域、古汉语四个语料中根据搜索需求进行选择,选择完成后,点击[搜索]按钮,页面就会根据不同的语料呈现不同的搜索结果,其中结果上方从左到右依次是[统计]键(统计符合检索式的语言片段出现的频次)、[筛选]键(对检索结果进一步剔除或者仅仅保留符合筛选检索式的实例)、[下载]键(下载检索或统计结果,登录用户可以下载10000条,非登录用户下载1000条)、[高级]键(设置检索结果的显示形式,控制上下文字数),在每条检索结果的最左方有[查看]按钮,可以查看出处和更多上下文。以《骆驼祥子》的祥子v为例,具体结果如下:

4)对比检索
进入汉语检索版块后,用户点击[搜索]按钮旁的[对比]按钮,呈现以下界面。
对比检索有两种语料来源,一种是单一来源,另一种是两个来源。用户按序在呈现的界面选择[单一预料中],并根据自身检索需求选择语料,在本次示例中,选择了[多领域]选项,在两个文本框中输入[和平的n]与[稳定的n],最后点击[对比]按钮,呈现搜索结果,结果有两种呈现方式,分别为词云显示与列表显示,在词云显示中,汉字字体较大的结果为高频词,在列表显示中,会呈现具体频数,高频词位居前列,具体情况如下:
用户回到[对比]呈现界面,点击[两个来源中]选项,之后根据自身检索需求选择两个语料来源,在本次示例中,选择了[多领域]与[报刊]选项,在一个文本框中输入[稳定的n],最后点击[对比]按钮,呈现搜索结果,结果有三种呈现方式,分别为词云显示、列表显示以及柱状图显示,在词云显示中,汉字字体较大的结果为高频词;在列表显示中,会呈现具体频数,高频词位居前列;在柱状图显示中,呈现检索式在两个语料来源中的频率分布,具体情况如下:

3. 学习心得
就翻译实践而言,BCC汉语语料库具有多重好处。首先,BCC 汉语语料库拥有丰富语料资源,涵盖了报刊、文学、对话、微博、科技、综合和古汉语等多领域语料,为翻译实践提供多种语料来源与文章语境,方便译者的翻译实践操作;其次,BCC汉语语料库拥有海量数据,如历时检索结果的海量数据可以验证术语准确性;最后,BCC汉语语料库功能丰富,通过多种功能的语料库检索, 能够验证词汇的搭配组合的典型性, 发现合适的搭配词汇,避免译者的主观性推断,有助于提高翻译质量。
经过本次学习,笔者更加深刻地了解到了BCC汉语语料库的优势与特点,在后续的翻译学习与翻译实践中将继续使用BCC汉语语料库辅助翻译实践,提高翻译质量与效率,提升译文的可读性。

4. 配套视频

注:学习作品,仅供参考,欢迎指正。

作者:王慧琪
编校:布兰妮
继续滑动看下一个
翻译学习共同体
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存