|
Homepage set up by Hu Xianyao on 30 October 2009
|
|
|
|
|
| Corpus type |
Corpus builder |
Affiliation |
Email address |
|
Chinese, monolingual, |
Hu
Xianyao, PhD. of Translation Studies |
Southwest University, Chongqing, 400715, China |
huxyao@gmail.com |
|
translational,
POS tagged |
胡显耀 翻译学博士 |
中国重庆 西南大学 (400715) |
|
|
Welcome to CCTFC – A corpus for
Descriptive Translation Studies!
当代汉语翻译小说语料库(简称CCTFC)为现代汉语单语翻译小说语料库,是国内外第一个只收入汉语单语翻译语料,不限原语语种的语料库。CCTFC目前容量为130万词(经词性标注),所收语料为译自英、美、法、俄、德、日等11个国家8种语言的汉语翻译小说56部;语料来源为著名译者、著名作者和由我国正规出版社在1980年至2000年间出版的长篇翻译小说和短篇小说集。该语料库是“翻译汉语语料库”(Translated
Chinese Corpus)的先驱子语料库之一。CCTFC的主要建设目的是为描写翻译学提供实证基础。通过该语料库可以系统研究翻译汉语的语言特征、翻译共性、汉语翻译规范、翻译认知模型等问题,为应用领域内的翻译教学和机器辅助翻译提供理论支持。CCTFC由西南大学胡显耀博士于2006年6月建成,可进行动态扩充。目前通过中国外语教育研究中心和Corpus4u网站链接免费供国内外翻译研究者下载和检索(需实名注册)。语料版权属于原译著者,仅用于研究目的。感谢浙江大学肖忠华教授和中国外语教育研究中心许家金博士的技术支持!
The Contemporary Chinese Translated Fiction Corpus,
or CCTFC for short, is a monolingual translational corpus of Chinese
fictional texts, which is, presumably, the first of its type in Chinese. It has
been designed and constructed as a corpus that consists only of Chinese
translated texts from a variety of source languages. CCTFC currently has an
extendable size of 1.3 million Chinese words ( after POS tagging), including all
together 56 novels translated into Chinese from 8 Source Languages of 11
countries, including the Great Britain, the US, France, Russia, Germany, Japan,
etc. All texts have been carefully sampled from full-length novels and/or
collections of short stories (by the same author) translated and published
through 1980’s to 2000 (20,000 Chinese characters for each novel or collection)
based on a series of collecting criteria in order to ensure its
representative-ness. The CCTFC is expected to be a pilot corpus of the
Translational Chinese Corpus (TCC), a balanced 10-million-word corpus of
Chinese translated texts, which can be taken as the foundation for empirical
researches in Descriptive Translation Studies. Investigations in search for the
linguistic features of translation, translation universals, translation norms
and the cognitive models of translation have already been carried out and
hypotheses testified based on CCTFC. The corpus has been collected, annotated
and structured by HU Xianyao, PhD and associate professor of School of Foreign
Languages, Southwest University, Chongqing, China. The CCTFC is now available
for both on-line queries and free download after real identity registration
through
http://www.fleric.org.cn/cctfc/ and
http://www.corpus4u.org/. Professor Richard Xiao of Zejiang University and
Dr. Xu Jiajin of National Research Centre for Foreign Language Education,
Beijing Foreign Studies University, have offered their generous technical
support in the construction and distribution of CCTFC. The Copyright of all
texts collected by CCTFC remains with the translators; the corpus can merely be
used for non-commercial research purposes.
|
采集标准
CCTFC旨在能够代表当代汉语翻译小说总体,收录了翻译自英、美、法、俄、德、日、西班牙语等多种语言的汉语翻译小说共56部。为保证语料的代表性,CCTFC的语料采集标准是:
|
|
|
J |
原著为著名作者的代表性作品,以长篇小说为主,也收入少量同一作家的短篇小说集。计划包含五个类型的长篇小说:K类一般小说,L类侦探小说,M类科幻小说,N类惊险小说和P类爱情小说。现有语料主要为K类一般小说。 |
|
|
|
J |
出于对译本质量的考虑,译者要有较高知名度。由于20世纪90年代以后很多出版商不断重译外国名著而且为了追求效益出现了许多滥竽充数、质量低下的译作,故选取有一定知名度的译家的作品,以保证语料的质量。 |
|
|
|
J |
译著必须是正规出版社出版,如人民出版社,译林出版社等出版数量和质量都有保证且印刷错误较少。 |
|
|
|
J |
译著出版时间跨度为1980年至2000年。这20年间我国出版翻译小说的总量目前没有准确的统计数据,
CCTFC所收录的翻译小说基本上覆盖了这20年的范围; |
|
|
|
J |
译本一般有译者撰写的前言或后记等。这些信息主要用于语料库的表头文件(header
file),即包括原著、作者、译著、译作、翻译过程等五个方面的超文本信息。
|
|
|
|
J |
电子文本经校对准确无误。 |
样本大小
每部作品采集样本32,000个汉字,
约合20,000英语单词(按1汉字=1.6个英语单词算)。目前已收入翻译小说56部,现有实际容量为130万词,约180万汉字,
包括来自11个国家的翻译小说(见表1)。CCTFC所收入的翻译小说主要来自英、俄(苏)、美、法等国(共42部,占75%),另外还包括日本、捷克、爱尔兰、哥伦比亚、西班牙、德国、澳大利亚等国的作品(共14部,占25%)。(见下表及附录1《CCTFC收录译著目录》)
表1.
CCTFC收入翻译小说国别统计
|
国家 |
美国 |
英国 |
俄(苏) |
法国 |
日本 |
捷克 |
其它 |
合计 |
|
数量 |
10 |
11 |
11 |
10 |
4 |
4 |
6 |
56 |
|
比例 |
17.9% |
19.6% |
19.6% |
17.9% |
7.1% |
7.1% |
10.7% |
100% |
取样方法
在作品的开头、中间和结尾各取10,000字左右。考虑到语料的连贯性,取样时尽可能不把句子或段落拆开。每次取样都尽量保持在句子或段落结束,因此实际取样的字数可能会略多于或少于32,000字。取样时主要从PDF格式文件中转存为TXT格式。PDF转存后保存了很多原来的段落标记,需要手工删除这些标记。另外考虑到取样后章节标题和译文注释可能会造成语料某些特征偏高,以及为了保证语料的同质性,去掉了语料中的章节标题、脚注和尾注等内容。
标注工具
CCTFC采取中科院计算所汉语词法分析系统(ICTCLAS)1.0版进行词性标注。CCTFC所使用的标注集与北大标准和“兰开斯特现代汉语语料库”(LCMC)基本一致。由于汉语词性标注软件存在一定的错误率,
为了保证标注的准确性,
CCTFC进行了人工纠错。(见下表及附录2《CCTFC词性标注集及统计》)
标注样例
表2.
CCTFC标注样例
<body>
<p>
<s n="0001"> <w POS="v">让</w>
<w POS="n">人们</w>
<w POS="v">明白</w>
<w POS="r">本书</w>
<w POS="u">的</w>
<w POS="n">主人公</w>
<w POS="v">是</w>
<w POS="r">我</w>
<w POS="c">而</w>
<w POS="d">不</w>
<w POS="v">是</w>
<w POS="r">别人</w>
<w POS="w">,</w>
<w POS="r">这</w>
<w POS="v">是</w>
<w POS="r">本书</w>
<w POS="d">必须</w>
<w POS="v">做到</w>
<w POS="u">的</w>
<w POS="ew">。</w>
</s>
</p>
表头文件
CCTFC采用
“翻译英语语料库”(TEC)的基本结构模式,即每部翻译小说保存为一个单独的XML格式文件。每个文件的基本结构是:表头文件(header
file)+标注语料(body)。其中表头文件中包括7个方面的信息:文本类型;文件编号和取样字数;标题(中外文);译者(姓名,性别,国籍,地位);译著出版信息(出版社,地点,时间,方向,方式);作者(姓名,性别,出生时间);原著出版信息(出版社,地点,时间,语种)。例如,CCTFC一般小说K类第一部小说《洛丽塔》的表头文件如下:
表3.
CCTFC表头文件样例

标注结构
表头文件后是经过词语切分和词性标注,句子和段落标注,并转化为Xaira和WordSmith
Tools等语料库工具软件可以处理的XML格式和UTF-8汉字编码的语料文本。CCTFC共采用了四层标注结构,
首先是表头文件,包括七个方面信息:该语料的类型,语料编号及字数,语料的标题(中外文),译者信息,译著信息,作者信息和原著信息等;第二层为段落标记;第三层为句子标记和编号;第四层为词语和标点符号标记(见表4)。
表4.
CCTFC的标注结构
|
标注层 |
代码 |
含义 |
属性 |
含义 |
|
1 |
<header> |
表头 |
<text class> |
K,
L, M, N, P共五类小说 |
|
<file> |
ID从K00001起,
size为语料字数 |
|
<title> |
中外文标题 |
|
<translator> |
译者相关信息 |
|
<translation> |
译著相关信息 |
|
<author> |
作者相关信息 |
|
<source Text |
原著相关信息 |
|
2 |
<p> |
段落 |
--- |
--- |
|
3 |
<s> |
句子 |
n |
从0001算起 |
|
4 |
<w> |
单词 |
POS |
依据ICTCLAS标注集进行词性标注 |
|
<c> |
标点符号 |
附录1 CCTFC收录译著目录
(排列顺序为:
语料编号;
作品 (国家)
作者;
译者;
出版社,
出版时间;
取样字数)
K1. 洛丽塔 (美) 弗拉迪米尔·纳博科夫(1899-1977)著,
俄裔美国作家; 于晓丹译. 南京: 江苏文艺出版社, 1989; 32,687
K2. 娜娜 (法) 左拉著; 郑永慧译. 北京 : 人民文学出版社, 1985; 33,162
K3. 珍妮姑娘 (美) 德莱塞著; 傅东华译. 上海译文出版社, 1979; 33362
K4. 罪与罚 (俄) 陀思妥耶夫斯基; (不详), 31754
K5. 最后的莫希干人 (美) 库柏(1789-1851)著; 陈兵译. 安徽文艺出版社,1995; 29,646
K6. 尤利西斯 (爱尔兰) 乔伊斯著 萧乾,文洁若译 南京 : 译林出版社, 1994 32000
K7. 百年孤独 (哥伦比亚) 马尔克斯著; 吴健恒译 昆明 : 云南人民出版社, 1993 31,858
K8. 追忆似水年华 (法) M.普鲁斯特著 李恒基,徐继曾等译 南京 译林出版社, 1989 34,153
K9. 战争与和平 (俄)托尔斯泰(1828-1910)著; 刘辽逸译. 北京 : 人民文学出版社, 1989 32,498
K10.怎么办? (俄) 车尔尼雪夫斯基著; 魏玲译. 南京 : 译林出版社, 1998; 30.644
K11.约翰·克利斯朵夫 (法)罗曼·罗兰著; 傅雷译 北京 : 中国友谊出版公司, 2000 32,723
K12.安娜·卡列尼娜 (俄)托尔斯泰著; 高惠群, 石国生译 上海:上海译文出版社, 1998 32,853
K13.永别了,武器 (美) 海明威著; 林疑今译. 上海 : 上海译文出版社, 1980; 30,605
K14.雾都孤儿 (英) 狄更斯著; 荣如德译 上海: 上海译文出版社, 1991, 31,060
K15.在我弥留之际 (美)威廉·福克纳著,李文俊译,1994 年据美国文库版校改),上海:上海译文出版社,1995; 32,000
K16.万延元年的足球队 (日) 大江健三郎著; 于长敏,王新新译. 北京: 光明日报出版社, 1995 32,524
K17.巴黎圣母院 (法) 雨果著;陈敬容译. 北京 : 人民文学出版社, 1982; 31,331
K18.包法利夫人 (法) 福楼拜( 1821-1880)著; 罗国林译 北京 : 北京燕山出版社, 2000, 30,083
K19.堂吉诃德 (西) 塞万提斯(1547-1616)著; 杨绛译. 北京 : 人民文学出版社, 1987, 32000
K20.生命中不能承受之轻 (捷克)昆德拉著;韩少功,韩刚译. 北京: 作家出版社, 1987; 31,656
K21.生活在别处(捷)昆德拉著;景凯旋,景黎明译. 北京 : 作家出版社, 1989; 31,667
K22.猫与鼠 (德) 君特·格拉斯著;蔡鸿君,石沿之译. 桂林 : 漓江出版社, 1991; 30,614
K23.牧童与牧女(苏)阿斯塔菲耶夫著 夏仲翼译. (不详); 32,000.
K24.母亲 (苏)高尔基著; (不详) 1994; 32000.
K25.九三年(法)雨 果著; 郑永慧译. 北京 : 人民文学出版社, 1996 32,331
K26.苦行记 (美)马克·吐温著; 刘文哲, 张明林译. 重庆 : 西南师范大学出版社, 1994 31,533
K27.静静的顿河(苏) 肖洛霍夫著; 金人译. 北京 : 人民文学出版社, 1988 ; 33,315
K28.挪威的森林 (日) 村上春树著; 林少华译. 桂林 : 漓江出版社, 1989; 32,491
K29.牛虻 (爱尔兰) 文捷尔·丽莲·伏尼契(1864 -1960)著; 庆学先; 南京(不详) 1995; 32,534
K30.恋爱中的女人 (英)戴维·赫伯特·劳伦斯 (不详); 32,464
K31.鲁滨孙历险记 (英) 丹尼尔·笛福; 黄杲炘译. 上海译文出版社, 1996; 31,547
K32.马丁·伊登 (美) 杰克·伦敦著; 殷惟本译 北京 : 人民文学出版社, 1996; 31,464
K33.荆棘鸟 (澳) 考琳·麦卡洛著; 曾胡译. 南京 : 译林出版社, 1998 ; 31,735
K34.本性 (捷) 米兰·昆德拉著; 张玲,汤睿译; (不详) 1998; 32,137
K35.美国的悲剧 (美) 德莱塞著; 许汝祉译. 北京 : 外国文学出版社, 1986; 32,601
K36.大卫·科波菲尔 (英) 狄更斯著; 庄绎传译. 北京 : 人民文学出版社, 2000; 32,424
K37.德伯家的苔丝 (英)哈代(Thomas Hardy)著;张谷若译.北京:人民文学出版社, 1984.7 32,761
K38.动物庄园 (英)奥威尔(Orwell,G.)著; 张毅,高孝先译.上海 : 上海人民出版社, 1988; 32,068
K39.儿子与情人 (英) 劳伦斯著; 陈良廷,刘文澜译. 北京 : 外国文学出版社, 1987.4; 31,429
K40.复活 (俄) 托尔斯泰著; 草婴译. 上海 : 上海译文出版社, 1983; 31,905
K41.父与子 (俄) 屠格涅夫著;(不详)
K42.福尔赛世家 (英)高尔斯华绥著; 周煦良译 上海 : 上海译文出版社, 1978;33,885
K43.川端康成作品集 (日) 川端康成著; 叶渭渠译 (不详); 34,280
K44.查太莱夫人的情人 (英) 劳伦斯著; 饶述一译. 长沙 : 湖南人民出版社, 1986; 31,298
K45.茶花女 (法) 小仲马著; 王振孙译. 北京 : 人民文学出版社, 1980; 33,867
K46.青年近卫军(苏)法捷耶夫著; 水夫译. 北京 : 人民文学出版社, 1975; 31,892
K47.三剑客 (法) 大仲马(1802-1870) 著; 周克希译. 北京 : 人民文学出版社, 1995; 32,828
K48.幻灭 (法)巴尔扎克著; 傅雷译. 北京 : 人民文学出版社, 1989; 32,742
K49.毁灭 (苏)法捷耶夫著; 磊然译. 北京 : 人民文学出版社, 1978; 32,403
K50.红与黑 (法) 司汤达著; (不详) 32,495
K51.呼啸山庄 (英) 勃朗特著; 扬苡译. 南京 : 江苏人民出版社, 1980.7 32,354
K52.蝴蝶梦(英)达夫妮·杜穆里埃(Daphne du Maurier,1907 一1990)著; (不详) 32,204
K53.好兵帅克历险记 (捷) 雅·哈谢克(1883-1923)著; 星灿译. 北京 : 人民文学出版社, 1983; 31,791
K54.海明威短篇小说选 (美)海明威著; 鹿金,汤永宽等译.上海 : 上海译文出版社, 1981;31,868
K55.海上劳工 (法) 维克多·雨果著; 许钧译. 南京 : 译林出版社, 2001; 32,415
K56.哈克贝里·芬历险记 (美) 马克·吐温著; 张万里译. 上海:上海译文出版社, 1984; 33,509
附录2 各语料库词性赋码统计表
|
|
CCTFC |
LCMCN) |
LCMC |
PDC2001-1 |
|
|
|
频次 |
比例 |
频次 |
比例 |
频次 |
比例 |
频次 |
比例 |
|
|
赋码总数 |
1,301,101
|
100.00% |
234,441
|
100.00% |
1,001,829
|
100.00% |
1,284,466
|
100.00% |
|
Tag |
词语总数 |
1,093,119
|
84.01% |
193,368
|
82.48% |
839,007
|
83.75% |
1,095,514
|
85.29% |
|
n |
名词 |
160,455
|
12.33% |
30,779
|
13.13% |
180,209
|
17.99% |
277,863
|
21.63% |
|
ng |
名语素 |
12,816
|
0.99% |
2,625
|
1.12% |
10,176
|
1.02% |
9,766
|
0.76% |
|
nr |
人名 |
26,621
|
2.05% |
10,127
|
4.32% |
23,653
|
2.36% |
27,255
|
2.12% |
|
ns |
地名 |
5,767
|
0.44% |
1,141
|
0.49% |
9,583
|
0.96% |
28,283
|
2.20% |
|
nt |
机构名 |
10 |
0.00% |
0 |
0.00% |
500 |
0.05% |
3,582
|
0.28% |
|
nz |
其它专名 |
760 |
0.06% |
302 |
0.13% |
2,406
|
0.24% |
2,944
|
0.23% |
|
v |
动词 |
243,801
|
18.74% |
44,576
|
19.01% |
176,705
|
17.64% |
202,381
|
15.76% |
|
vg |
动语素 |
3,428
|
0.26% |
813 |
0.35% |
3,003
|
0.30% |
3,361
|
0.26% |
|
vd |
副动词 |
1,219
|
0.09% |
276 |
0.12% |
1,576
|
0.16% |
3,557
|
0.28% |
|
vn |
名动词 |
9,221
|
0.71% |
1,740
|
0.74% |
26,507
|
2.65% |
55,994
|
4.36% |
|
a |
形容词 |
44,896
|
3.45% |
7,812
|
3.33% |
33,131
|
3.31% |
42,821
|
3.33% |
|
ag |
形语素 |
2,594
|
0.20% |
411 |
0.18% |
1,679
|
0.17% |
3,125
|
0.24% |
|
ad |
副形词 |
3,416
|
0.26% |
752 |
0.32% |
4,942
|
0.49% |
9,083
|
0.71% |
|
an |
名形词 |
4,483
|
0.34% |
679 |
0.29% |
3,376
|
0.34% |
5,614
|
0.44% |
|
d |
副词 |
95,583
|
7.35% |
16,918
|
7.22% |
57,410
|
5.73% |
54,142
|
4.22% |
|
dg |
副语素 |
1,019
|
0.08% |
248 |
0.11% |
796 |
0.08% |
910 |
0.07% |
|
i |
成语 |
5,857
|
0.45% |
1,317
|
0.56% |
4,766
|
0.48% |
5,215
|
0.41% |
|
l |
习用语 |
3,127
|
0.24% |
650 |
0.28% |
4,279
|
0.43% |
5,436
|
0.42% |
|
j |
简略语 |
3,603
|
0.28% |
233 |
0.10% |
3,653
|
0.36% |
14,639
|
1.14% |
|
r |
代词 |
129,977
|
9.99% |
17,645
|
7.53% |
49,377
|
4.93% |
34,806
|
2.71% |
|
p |
介词 |
49,380
|
3.80% |
7,011
|
2.99% |
36,154
|
3.61% |
46,620
|
3.63% |
|
c |
连词 |
28,754
|
2.21% |
3,895
|
1.66% |
24,438
|
2.44% |
31,528
|
2.45% |
|
u |
助词 |
107,707
|
8.28% |
17,837
|
7.61% |
75,273
|
7.51% |
80,771
|
6.29% |
|
b |
区别词 |
7,696
|
0.59% |
832 |
0.35% |
6,162
|
0.62% |
14,940
|
1.16% |
|
e |
叹词 |
2,301
|
0.18% |
298 |
0.13% |
490 |
0.05% |
135 |
0.01% |
|
f |
方位词 |
28,170
|
2.17% |
4,369
|
1.86% |
18,918
|
1.89% |
16,633
|
1.29% |
|
g |
语素 |
446 |
0.03% |
33 |
0.01% |
152 |
0.02% |
292 |
0.02% |
|
h |
前接成分 |
442 |
0.03% |
82 |
0.03% |
317 |
0.03% |
729 |
0.06% |
|
k |
后接成分 |
2,677
|
0.21% |
409 |
0.17% |
2,112
|
0.21% |
2,563
|
0.20% |
|
o |
拟声词 |
970 |
0.07% |
233 |
0.10% |
365 |
0.04% |
139 |
0.01% |
|
m |
数词 |
35,667
|
2.74% |
7,425
|
3.84% |
34,361
|
4.10% |
49,954
|
3.89% |
|
q |
量词 |
29,487
|
2.27% |
4,879
|
2.08% |
19,502
|
1.95% |
26,267
|
2.04% |
|
s |
处所词 |
6,700
|
0.51% |
1,592
|
0.68% |
4,392
|
0.44% |
4,200
|
0.33% |
|
t |
时间词 |
10,096
|
0.78% |
1,901
|
0.81% |
9,875
|
0.99% |
24,189
|
1.88% |
|
tg |
时语素 |
958 |
0.07% |
122 |
0.05% |
723 |
0.07% |
1,010
|
0.08% |
|
w |
标点 |
139,236
|
10.70% |
29,472
|
12.57% |
120,399
|
12.02% |
188,952
|
14.71% |
|
ew |
句子标点 |
68,746
|
5.28% |
11,601
|
4.95% |
42,423
|
4.23% |
|
0.00% |
|
x |
非语素词 |
203 |
0.02% |
2 |
0.00% |
23 |
0.00% |
130 |
0.01% |
|
y |
语气词 |
17,549
|
1.35% |
2,371
|
1.01% |
4,758
|
0.47% |
2,155
|
0.17% |
|
z |
状态词 |
3,763
|
0.29% |
820 |
0.35% |
1,739
|
0.17% |
1,115
|
0.09% |
|
|
合
计 |
1,299,601
|
99.88% |
234,228
|
99.91% |
1,000,303
|
99.85% |
1,283,099
|
99.89% |
注:LCMC(N)为兰开斯特现代汉语语料库(LCMC)的小说子库;PDC2000-1为《人民日报》2000年1月语料。各语料库均采用中科院计算所汉语词法分析系统ICTCLAS进行词语切分文词性标注,词性标注集见上表最左栏。
|
|