欢迎  Welcome

CCTFC简介

About CCTFC


语料采集 Collection
 

采集标准

样本大小

取样方法

 

语料标注 Annotation
 

标注工具

标注样例

 

语料结构 Structure
 

表头文件

结构层次

 

附录 Appendices
 

语料目录

赋码统计

 

 

 

 

Homepage set up by Hu Xianyao on 30 October 2009

 

 


 

 

 

 


 


 
 

当代汉语翻译小说语料库

The Contemporary Chinese Translated Fiction Corpus

 

CCTFC

 

Search corpus                 Download corpus                Registration

 

Welcome to CCTFC – A corpus for Descriptive Translation Studies!

 

    当代汉语翻译小说语料库(简称CCTFC)为现代汉语单语翻译小说语料库,是国内外第一个只收入汉语单语翻译语料,不限原语语种的语料库。CCTFC目前容量为130万词(经词性标注),所收语料为译自英、美、法、俄、德、日等11个国家8种语言的汉语翻译小说56部;语料来源为著名译者、著名作者和由我国正规出版社在1980年至2000年间出版的长篇翻译小说和短篇小说集。该语料库是翻译汉语语料库Translated Chinese Corpus)的先驱子语料库之一。CCTFC的主要建设目的是为描写翻译学提供实证基础。通过该语料库可以系统研究翻译汉语的语言特征、翻译共性、汉语翻译规范、翻译认知模型等问题,为应用领域内的翻译教学和机器辅助翻译提供理论支持。CCTFC由西南大学胡显耀博士于20066月建成,可进行动态扩充。目前通过中国外语教育研究中心Corpus4u网站链接免费供国内外翻译研究者下载和检索(需实名注册)。语料版权属于原译著者,仅用于研究目的。感谢浙江大学肖忠华教授和中国外语教育研究中心许家金博士的技术支持!  

     The Contemporary Chinese Translated Fiction Corpus, or CCTFC for short, is a monolingual translational corpus of Chinese fictional texts, which is, presumably, the first of its type in Chinese. It has been designed and constructed as a corpus that consists only of Chinese translated texts from a variety of source languages. CCTFC currently has an extendable size of 1.3 million Chinese words ( after POS tagging), including all together 56 novels translated into Chinese from 8 Source Languages of 11 countries, including the Great Britain, the US, France, Russia, Germany, Japan, etc. All texts have been carefully sampled from full-length novels and/or collections of short stories (by the same author) translated and published through 1980’s to 2000 (20,000 Chinese characters for each novel or collection) based on a series of collecting criteria in order to ensure its representative-ness. The CCTFC is expected to be a pilot corpus of the Translational Chinese Corpus (TCC), a balanced 10-million-word corpus of Chinese translated texts, which can be taken as the foundation for empirical researches in Descriptive Translation Studies. Investigations in search for the linguistic features of translation, translation universals, translation norms and the cognitive models of translation have already been carried out and hypotheses testified based on CCTFC. The corpus has been collected, annotated and structured by HU Xianyao, PhD and associate professor of School of Foreign Languages, Southwest University, Chongqing, China. The CCTFC is now available for both on-line queries and free download after real identity registration through http://www.fleric.org.cn/cctfc/ and http://www.corpus4u.org/. Professor Richard Xiao of Zejiang University and Dr. Xu Jiajin of National Research Centre for Foreign Language Education, Beijing Foreign Studies University, have offered their generous technical support in the construction and distribution of CCTFC. The Copyright of all texts collected by CCTFC remains with the translators; the corpus can merely be used for non-commercial research purposes.

 


语料采集 Collection                                                                                                                                Back to top

 采集标准

CCTFC旨在能够代表当代汉语翻译小说总体,收录了翻译自英、美、法、俄、德、日、西班牙语等多种语言的汉语翻译小说共56部。为保证语料的代表性,CCTFC的语料采集标准是:

    J 原著为著名作者的代表性作品,以长篇小说为主,也收入少量同一作家的短篇小说集。计划包含五个类型的长篇小说:K类一般小说,L类侦探小说,M类科幻小说,N类惊险小说和P类爱情小说。现有语料主要为K类一般小说。
    J 出于对译本质量的考虑,译者要有较高知名度。由于20世纪90年代以后很多出版商不断重译外国名著而且为了追求效益出现了许多滥竽充数、质量低下的译作,故选取有一定知名度的译家的作品,以保证语料的质量。
    J   译著必须是正规出版社出版,如人民出版社,译林出版社等出版数量和质量都有保证且印刷错误较少。
    J 译著出版时间跨度为1980年至2000年。这20年间我国出版翻译小说的总量目前没有准确的统计数据, CCTFC所收录的翻译小说基本上覆盖了这20年的范围;
    J 译本一般有译者撰写的前言或后记等。这些信息主要用于语料库的表头文件(header file),即包括原著、作者、译著、译作、翻译过程等五个方面的超文本信息。
    J 电子文本经校对准确无误。

样本大小

每部作品采集样本32,000个汉字, 约合20,000英语单词(1汉字=1.6个英语单词算)。目前已收入翻译小说56部,现有实际容量为130万词,约180万汉字, 包括来自11个国家的翻译小说(见表1)。CCTFC所收入的翻译小说主要来自英、俄(苏)、美、法等国(共42部,占75%),另外还包括日本、捷克、爱尔兰、哥伦比亚、西班牙、德国、澳大利亚等国的作品(共14部,占25%)。(见下表及附录1CCTFC收录译著目录》)

1. CCTFC收入翻译小说国别统计

国家

美国

英国

俄(苏)

法国

日本

捷克

其它

合计

数量

10

11

11

10

4

4

6

56

比例

17.9%

19.6%

19.6%

17.9%

7.1%

7.1%

10.7%

100

取样方法

在作品的开头、中间和结尾各取10,000字左右。考虑到语料的连贯性,取样时尽可能不把句子或段落拆开。每次取样都尽量保持在句子或段落结束,因此实际取样的字数可能会略多于或少于32,000字。取样时主要从PDF格式文件中转存为TXT格式。PDF转存后保存了很多原来的段落标记,需要手工删除这些标记。另外考虑到取样后章节标题和译文注释可能会造成语料某些特征偏高,以及为了保证语料的同质性,去掉了语料中的章节标题、脚注和尾注等内容。

 


语料标注 Annotation                                                                                                                             Back to top

标注工具

CCTFC采取中科院计算所汉语词法分析系统(ICTCLAS1.0版进行词性标注。CCTFC所使用的标注集与北大标准和兰开斯特现代汉语语料库LCMC)基本一致。由于汉语词性标注软件存在一定的错误率, 为了保证标注的准确性, CCTFC进行了人工纠错。(见下表及附录2CCTFC词性标注集及统计》)

标注样例

2. CCTFC标注样例

<body>

<p>

<s n="0001"> <w POS="v"></w> <w POS="n">人们</w> <w POS="v">明白</w> <w POS="r">本书</w> <w POS="u"></w> <w POS="n">主人公</w> <w POS="v"></w> <w POS="r"></w> <w POS="c"></w> <w POS="d"></w> <w POS="v"></w> <w POS="r">别人</w> <w POS="w"></w> <w POS="r"></w> <w POS="v"></w> <w POS="r">本书</w> <w POS="d">必须</w> <w POS="v">做到</w> <w POS="u"></w> <w POS="ew"></w> </s>

</p>


语料结构 Structure                                                                                                                               Back to top

表头文件

CCTFC采用翻译英语语料库TEC)的基本结构模式,即每部翻译小说保存为一个单独的XML格式文件。每个文件的基本结构是:表头文件(header file)+标注语料(body)。其中表头文件中包括7个方面的信息:文本类型;文件编号和取样字数;标题(中外文);译者(姓名,性别,国籍,地位);译著出版信息(出版社,地点,时间,方向,方式);作者(姓名,性别,出生时间);原著出版信息(出版社,地点,时间,语种)。例如,CCTFC一般小说K类第一部小说《洛丽塔》的表头文件如下:

 

3. CCTFC表头文件样例

标注结构

表头文件后是经过词语切分和词性标注,句子和段落标注,并转化为XairaWordSmith Tools等语料库工具软件可以处理的XML格式和UTF-8汉字编码的语料文本。CCTFC共采用了四层标注结构, 首先是表头文件,包括七个方面信息:该语料的类型,语料编号及字数,语料的标题(中外文),译者信息,译著信息,作者信息和原著信息等;第二层为段落标记;第三层为句子标记和编号;第四层为词语和标点符号标记(见表4)。

 

4. CCTFC的标注结构

标注层

代码

含义

属性

含义

1

<header>

表头

<text class>

K, L, M, N, P共五类小说

<file>

IDK00001, size为语料字数

<title>

中外文标题

<translator>

译者相关信息

<translation>

译著相关信息

<author>

作者相关信息

<source Text

原著相关信息

2

<p>

段落

---

---

3

<s>

句子

n

0001算起

4

<w>

单词

POS

依据ICTCLAS标注集进行词性标注

<c>

标点符号

 


附录 Appendices                                                                                                                                   Back to top

附录1  CCTFC收录译著目录

(排列顺序为: 语料编号; 作品 (国家) 作者; 译者; 出版社, 出版时间; 取样字数)

K1. 洛丽塔 (美) 弗拉迪米尔·纳博科夫(1899-1977)著, 俄裔美国作家;  于晓丹译. 南京: 江苏文艺出版社, 1989; 32,687
K2. 娜娜 (法)  左拉著; 郑永慧译. 北京 : 人民文学出版社, 1985; 33,162
K3. 珍妮姑娘 (美) 德莱塞著; 傅东华译. 上海译文出版社, 1979; 33362
K4. 罪与罚 (俄) 陀思妥耶夫斯基; (不详), 31754
K5. 最后的莫希干人 (美) 库柏(1789-1851)著; 陈兵译. 安徽文艺出版社,1995; 29,646
K6. 尤利西斯 (爱尔兰) 乔伊斯著 萧乾,文洁若译 南京 : 译林出版社, 1994 32000
K7. 百年孤独 (哥伦比亚) 马尔克斯著; 吴健恒译 昆明 : 云南人民出版社, 1993  31,858
K8. 追忆似水年华 (法) M.普鲁斯特著 李恒基,徐继曾等译 南京  译林出版社, 1989 34,153
K9. 战争与和平 (俄)托尔斯泰(1828-1910)著; 刘辽逸译. 北京 : 人民文学出版社, 1989  32,498
K10.怎么办?  (俄) 车尔尼雪夫斯基著; 魏玲译. 南京 : 译林出版社, 1998; 30.644
K11.约翰·克利斯朵夫 (法)罗曼·罗兰著; 傅雷译 北京 : 中国友谊出版公司, 2000  32,723
K12.安娜·卡列尼娜 (俄)托尔斯泰著; 高惠群, 石国生译 上海:上海译文出版社, 1998  32,853
K13.永别了,武器 (美) 海明威著; 林疑今译. 上海 : 上海译文出版社, 1980; 30,605
K14.雾都孤儿 (英) 狄更斯著; 荣如德译 上海: 上海译文出版社, 1991,  31,060
K15.在我弥留之际 (美)威廉·福克纳著,李文俊译,1994 年据美国文库版校改),上海:上海译文出版社,1995; 32,000
K16.万延元年的足球队 (日) 大江健三郎著; 于长敏,王新新译. 北京: 光明日报出版社, 1995  32,524
K17.巴黎圣母院 (法) 雨果著;陈敬容译. 北京 : 人民文学出版社, 1982;  31,331
K18.包法利夫人 (法) 福楼拜( 1821-1880)著; 罗国林译 北京 : 北京燕山出版社, 2000, 30,083
K19.堂吉诃德 (西) 塞万提斯(1547-1616)著; 杨绛译. 北京 : 人民文学出版社, 1987, 32000
K20.生命中不能承受之轻 (捷克)昆德拉著;韩少功,韩刚译. 北京: 作家出版社, 1987; 31,656
K21.生活在别处(捷)昆德拉著;景凯旋,景黎明译. 北京 : 作家出版社, 1989; 31,667
K22.猫与鼠 (德) 君特·格拉斯著;蔡鸿君,石沿之译. 桂林 : 漓江出版社, 1991; 30,614
K23.牧童与牧女(苏)阿斯塔菲耶夫著 夏仲翼译. (不详); 32,000.
K24.母亲 (苏)高尔基著; (不详) 1994; 32000.
K25.九三年(法)雨 果著; 郑永慧译. 北京 : 人民文学出版社, 1996 32,331
K26.苦行记 (美)马克·吐温著; 刘文哲, 张明林译. 重庆 : 西南师范大学出版社, 1994 31,533
K27.静静的顿河(苏) 肖洛霍夫著; 金人译. 北京 : 人民文学出版社, 1988 ; 33,315
K28.挪威的森林 (日) 村上春树著; 林少华译. 桂林 : 漓江出版社, 1989; 32,491
K29.牛虻 (爱尔兰) 文捷尔·丽莲·伏尼契(1864 -1960)著; 庆学先; 南京(不详) 1995; 32,534
K30.恋爱中的女人 (英)戴维·赫伯特·劳伦斯 (不详);  32,464
K31.鲁滨孙历险记 (英) 丹尼尔·笛福; 黄杲炘译. 上海译文出版社, 1996; 31,547
K32.马丁·伊登 (美) 杰克·伦敦著; 殷惟本译 北京 : 人民文学出版社, 1996; 31,464
K33.荆棘鸟 (澳) 考琳·麦卡洛著; 曾胡译. 南京 : 译林出版社, 1998 ; 31,735
K34.本性 (捷) 米兰·昆德拉著; 张玲,汤睿译; (不详) 1998; 32,137
K35.美国的悲剧 (美) 德莱塞著; 许汝祉译. 北京 : 外国文学出版社, 1986; 32,601
K36.大卫·科波菲尔 (英) 狄更斯著; 庄绎传译. 北京 : 人民文学出版社, 2000; 32,424
K37.德伯家的苔丝 (英)哈代(Thomas Hardy)著;张谷若译.北京:人民文学出版社, 1984.7 32,761
K38.动物庄园 (英)奥威尔(Orwell,G.)著; 张毅,高孝先译.上海 : 上海人民出版社, 1988; 32,068
K39.儿子与情人 (英) 劳伦斯著; 陈良廷,刘文澜译. 北京 : 外国文学出版社, 1987.4; 31,429
K40.复活 (俄) 托尔斯泰著; 草婴译. 上海 : 上海译文出版社, 1983; 31,905
K41.父与子 (俄) 屠格涅夫著;(不详)
K42.福尔赛世家 (英)高尔斯华绥著; 周煦良译 上海 : 上海译文出版社, 1978;33,885
K43.川端康成作品集 (日) 川端康成著; 叶渭渠译 (不详); 34,280
K44.查太莱夫人的情人 (英) 劳伦斯著;  饶述一译. 长沙 : 湖南人民出版社, 1986; 31,298
K45.茶花女 (法) 小仲马著; 王振孙译. 北京 : 人民文学出版社, 1980; 33,867
K46.青年近卫军(苏)法捷耶夫著; 水夫译. 北京 : 人民文学出版社, 1975; 31,892
K47.三剑客 (法) 大仲马(1802-1870) 著; 周克希译. 北京 : 人民文学出版社, 1995; 32,828
K48.幻灭 (法)巴尔扎克著; 傅雷译. 北京 : 人民文学出版社, 1989; 32,742
K49.毁灭 (苏)法捷耶夫著; 磊然译. 北京 : 人民文学出版社, 1978; 32,403
K50.红与黑 (法) 司汤达著; (不详) 32,495
K51.呼啸山庄 (英) 勃朗特著; 扬苡译. 南京 : 江苏人民出版社, 1980.7 32,354
K52.蝴蝶梦(英)达夫妮·杜穆里埃(Daphne du Maurier,1907 一1990)著; (不详) 32,204
K53.好兵帅克历险记 (捷) 雅·哈谢克(1883-1923)著; 星灿译. 北京 : 人民文学出版社, 1983; 31,791
K54.海明威短篇小说选 (美)海明威著; 鹿金,汤永宽等译.上海 : 上海译文出版社, 1981;31,868
K55.海上劳工 (法) 维克多·雨果著; 许钧译. 南京 : 译林出版社, 2001; 32,415
K56.哈克贝里·芬历险记 (美) 马克·吐温著; 张万里译. 上海:上海译文出版社, 1984; 33,509


                                                                                                                                                           Back to top

附录2  各语料库词性赋码统计表

 

CCTFC

LCMCN

LCMC

PDC2001-1

 

 

频次

比例

频次

比例

频次

比例

频次

比例

 

赋码总数

1,301,101

100.00%

234,441

100.00%

1,001,829

100.00%

1,284,466

100.00%

Tag

词语总数

1,093,119

84.01%

193,368

82.48%

839,007

83.75%

1,095,514

85.29%

       n

名词

160,455

12.33%

30,779

13.13%

180,209

17.99%

277,863

21.63%

ng

名语素

12,816

0.99%

2,625

1.12%

10,176

1.02%

9,766

0.76%

    nr

人名

26,621

2.05%

10,127

4.32%

23,653

2.36%

27,255

2.12%

     ns

地名

5,767

0.44%

1,141

0.49%

9,583

0.96%

28,283

2.20%

     nt

机构名

10

0.00%

0

0.00%

500

0.05%

3,582

0.28%

     nz

其它专名

760

0.06%

302

0.13%

2,406

0.24%

2,944

0.23%

       v

动词

243,801

18.74%

44,576

19.01%

176,705

17.64%

202,381

15.76%

     vg

动语素

3,428

0.26%

813

0.35%

3,003

0.30%

3,361

0.26%

     vd

副动词

1,219

0.09%

276

0.12%

1,576

0.16%

3,557

0.28%

     vn

名动词

9,221

0.71%

1,740

0.74%

26,507

2.65%

55,994

4.36%

a

形容词

44,896

3.45%

7,812

3.33%

33,131

3.31%

42,821

3.33%

ag

形语素

2,594

0.20%

411

0.18%

1,679

0.17%

3,125

0.24%

ad

副形词

3,416

0.26%

752

0.32%

4,942

0.49%

9,083

0.71%

an

名形词

4,483

0.34%

679

0.29%

3,376

0.34%

5,614

0.44%

d

副词

95,583

7.35%

16,918

7.22%

57,410

5.73%

54,142

4.22%

dg

副语素

1,019

0.08%

248

0.11%

796

0.08%

910

0.07%

i

成语

5,857

0.45%

1,317

0.56%

4,766

0.48%

5,215

0.41%

l

习用语

3,127

0.24%

650

0.28%

4,279

0.43%

5,436

0.42%

j

简略语

3,603

0.28%

233

0.10%

3,653

0.36%

14,639

1.14%

r

代词

129,977

9.99%

17,645

7.53%

49,377

4.93%

34,806

2.71%

p

介词

49,380

3.80%

7,011

2.99%

36,154

3.61%

46,620

3.63%

c

连词

28,754

2.21%

3,895

1.66%

24,438

2.44%

31,528

2.45%

u

助词

107,707

8.28%

17,837

7.61%

75,273

7.51%

80,771

6.29%

b

区别词

7,696

0.59%

832

0.35%

6,162

0.62%

14,940

1.16%

e

叹词

2,301

0.18%

298

0.13%

490

0.05%

135

0.01%

f

方位词

28,170

2.17%

4,369

1.86%

18,918

1.89%

16,633

1.29%

g

语素

446

0.03%

33

0.01%

152

0.02%

292

0.02%

h

前接成分

442

0.03%

82

0.03%

317

0.03%

729

0.06%

k

后接成分

2,677

0.21%

409

0.17%

2,112

0.21%

2,563

0.20%

o

拟声词

970

0.07%

233

0.10%

365

0.04%

139

0.01%

m

数词

35,667

2.74%

7,425

3.84%

34,361

4.10%

49,954

3.89%

q

量词

29,487

2.27%

4,879

2.08%

19,502

1.95%

26,267

2.04%

s

处所词

6,700

0.51%

1,592

0.68%

4,392

0.44%

4,200

0.33%

t

时间词

10,096

0.78%

1,901

0.81%

9,875

0.99%

24,189

1.88%

tg

时语素

958

0.07%

122

0.05%

723

0.07%

1,010

0.08%

w

标点

139,236

10.70%

29,472

12.57%

120,399

12.02%

188,952

14.71%

ew

句子标点

68,746

5.28%

11,601

4.95%

42,423

4.23%

 

0.00%

x

非语素词

203

0.02%

2

0.00%

23

0.00%

130

0.01%

y

语气词

17,549

1.35%

2,371

1.01%

4,758

0.47%

2,155

0.17%

z

状态词

3,763

0.29%

820

0.35%

1,739

0.17%

1,115

0.09%

 

 

1,299,601

99.88%

234,228

99.91%

1,000,303

99.85%

1,283,099

99.89%

     注:LCMC(N)为兰开斯特现代汉语语料库(LCMC)的小说子库;PDC2000-1为《人民日报》2000年1月语料。各语料库均采用中科院计算所汉语词法分析系统ICTCLAS进行词语切分文词性标注,词性标注集见上表最左栏。

                                                                                                                                                           Back to top