国内最常用的17个语料库,收藏


通用单语语料库

01

国家语委现代汉语通用平衡语料库

02

北京语言大学语料库中心BCC语料库

BCC语料库(http://bcc.blcu.edu.cn)是以汉语为主,兼有英语、西班牙语、法语、德语、土耳其语等语言的语料库,其中汉语语料规模约150亿字,涵盖了 刊、文学、微博、科技、综合和古汉语等多领域语料。BCC语料库包括了生语料、分词语料、词性标注语料和句法树,目前已对现代汉语、英语、法语的语料进行词性标注。

03

清华TH语料库

清华TH语料库(http://www.openslr.org/18)于1994年6月建成,其总库根据对语料加工深度的不同采用分级管理的原则,分成了生语料和熟语料两大类,其中0级生语料分库涵盖了一般书、 纸、论文、杂志、工具书等五类子库语料素材。经过近年来不断的升级和更新,已更名为THCHS-30语料库。

04

北京大学CCL语料库

05

人民日 标注语料库

该语料库是我国第一个大型的现代汉语标注语料库,以《人民日 》1998年的纯文本语料为基础,完成词语切分、词性标注、专有名词标注、语素子类标注、动词和形容词特殊用法标注、短语型标注等加工工作,现已扩充至3500万字的规模。后来北京大学计算语言学研究所在此基础上完成了另外100万字语料的词语切分、词性标注和汉语拼音标注的加工任务,还利用所研制的《现代汉语语义词典》、参照《现代汉语词典》,根据语料实际使用情况对词义描写进行调整,研发了一个大规模、高质量的现代汉语词义标注语料库(Chinese Word Sense Tagging Corpus,STC)

为了弥补北京大学人民日 语料库用于处理当前文本时的不足,2019年开始南京农业大学人文与 会计算研究中心以2015年至2018年《人民日 》发表的文章为对象,构建了新时代人民日 语料库(简称NEPD,
http://corpus.njau.edu.cn/
,目前该语料库涵盖了《人民日 》2015 年1-5 月、2016年1月、2017年1月、2018 年1月共9个月的分词语料,并且后续将不断补充最新语料 。

06

清华汉语树库(TshinghuaChineseTreebank,TCT )

汉英双语平行语料库

07

中国科学院汉英平行语料库

中国科学院汉英平行语料库是在对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工后建立的一个句子级对齐的双语语言信息和知识库,该语料库借助互联 等其他媒体搜集中英文篇章级对齐的双语文本,面向多领域多体裁,采用基于双语辞典的句子对齐方法进行了文本对齐,并对双语文本句子对齐结果实现自动评价。

08

南京大学双语词典研究中心英汉双语平行语料库(NJU_BDRCBC)

09

清华大学中英平行语料库

清华大学中英平行语料库(http://thumt.thunlp.org/)由清华大学自然语言处理与 会人文计算实验室在国家“863 计划” 项目“ 互联 语言翻译系统研制” 的支持下,利用自身研发的互联 平行 页获取软件和双语句子自动对齐软件获取并处理得到的,共包含285万中英平行句对。

其他汉外平行语料库

10

北京大学计算语言研究所双语平行语料库

该语料库为大型汉英、汉日双语语料库,包含汉英句子级对齐语料20万句对、汉日句子级对齐语料2万句对、汉英词汇级对齐语料1万对,旨在为机器翻译等应用系统的研发提供基础资源和标准的评测语料 。

11

北京外国语大学双语平行语料库

12

南京农业大学典籍平行语料库

基于十三经、《战国策》、前四史等典籍及其所对应的白话文和英文翻译,南京农业大学王东波结合深度学习相应模型设计了句对齐的算法,实现了古文句子与白话文和英文的对齐,并对古文、白话文和英文进行了分词、词性和实体标注,形成了独具特色的典籍平行语料库 。

其他特色语料库

13

汉语中介语语料库

汉语中介语语料库(http://qqk.blcu.edu.cn/#/login)由北京语言大学( 原北京语言学院)于1992年开始建设。该语料库立足于汉语教学已收录1635位外国学生共5774篇成篇成段的汉语作文或练习材料,总字数约353万,其中1731 篇约104万字的语料经过断句、分词和词性标注等加工处理。目前该全球汉语中介语料库仍处于努力建设过程中,北京语言大学仍然努力于建设全球汉语中介语语料库,其规模预计达5000万字,包括笔语语料、口语语料和多模态子库。笔语语料规模预计达4500万字,其中2000万字将加工成为熟语料;口语语料450小时,约合400万字;多模态语料110小时,约合100万字。

14

HSK动态作文语料库

该语料库
http://hsk.blcu.edu.cn/Login)
收录了1992-2005年部分母语非汉语的外国人参加高等汉语水平考试(HSK高等) 的作文考试的答卷语料,2006年12月上线语料库1.0版本,现已上线语料库2.0版本,语料总数达11569篇,共计424万字。除此之外,北京语言大学还建立了首都外国留学生汉语文本语料库、汉语学习者口语语料库等多种类型的汉语语料库。北京语言大学多个语料库的问世及相关的研究成果激励了更多学者和单位投入到教学导向的语料库的建设中,已知语料库有:中山大学建立的留学生中介语语料库、汉语连续性中介语料库、广东外语外贸大学与兰卡斯特大学联合建立的Guangwai Lancaster汉语学习者语料库等。

15

中国传媒大学有声媒体文本语料库

该语料库
http://ling.cuc.edu.cn/Raw-Pub/)
由中国传媒大学国家语言资源检测与研究有声媒体中心开发,2003年开始建设,2005年上线,其后不断扩大语料规模, 并于2016年进行了第三次改版。该语料库包括2008-2013年的3万多个广播、电视节目的撰写文本,总字符数达到2.4 亿个,并对所有文本进行了自动分词和词性标注。

16

名著汉英平行语料库

《红楼梦》汉英平行语料库是国内第一个根据译者选用原底本所做的句级对齐平行语料库,它的成功发布可为“红学” 不同英译本的研究提供客观科学的平台,为翻译教学提供丰富的资源,为翻译理论探讨提供基本素材 。莎士比亚戏剧英汉平行语料库由上海交通大学的学者研究构建,容量约600万字词。该语料库由英文原文和三个版本的译文构成,在分词的基础上实现了词性标注,以及人物对话层面的对齐,该库可以展开一对一及一对多的平行检索,为莎剧翻译研究和语言研究提供了宝贵资源 。

17

少数民族语言语料库

除了汉语相关语料库之外,国内少数民族语言语料库的构建研究工作也正在逐步发展,尤其是蒙古族、维吾尔族、藏族等几个少数民族的语料库。现代蒙古语语料库,由内蒙古大学蒙古语文研究所于1998年构建完成,总规模达5000万词,涵盖了文科教材、理科教材、文学、新闻、政治、 会科学、自然科学、口语等类型语料。内蒙古大学蒙古语文研究所在2003年开始建设汉蒙双语语料库,该语料库总规模达10万个句对,为蒙古文信息处理、语言教学、汉蒙双语研究和汉蒙双语词典的编纂等工作的发展奠定了基础。现代维吾尔语语料库,由新疆大学于2002年开始建设,生语料规模达800万词。西藏大学大型藏文语料库,总规模高达1.5亿藏文字符,其中3000万藏文字符经过分词和词性标注加工 。除此之外,还有200万词的新疆师范大学维吾尔语语料库、规模约1亿3千万字节的西北民族大学大型藏文语料库、500万藏语字符的中国 会科学院民族学语人类学研究所藏语语料库等。

计算模拟,专业更专注;

真诚服务,科学更严谨。

中科科翼,让科研更容易。

项目代算部分服务内容

1.量子化学从头计算

简介:

量子化学从头计算可以提供化合物电子结构信息,分析反应路径,预测化合物光谱和各种性质,量子化学从头计算软件可在不同型 的大型计算机,超级计算机,工作站和个人计算机上运行。与分子显示软件连用可以提供精美的分子结构和分子轨道图片。

主要功能:

化合物稳态结构的确定,如中性分子、自由基、阴、阳离子等;热力学分析,如熵变、熵变、吉布斯自由能变、键能分析及原子化能等;计算化学反应过程,如稳态及过渡态结构确定、反应热、反应能垒、反应机理及反应动力学等;计算并分析分子轨道;计算原子电荷、电势、偶极矩;振动频率分析及计算各大光谱,如IR, Raman, NMR, UV/Vis, VCD, ROA, ECD, ORD, XPS, EPR, Franck-Condon及超精细光谱等;计算极化率和超极化率;计算激发态结构及相关性质,如激发态结构确定、激发能、跃迁偶极矩、荧光光谱、磷光光谱、势能面交叉研究等;计算周期体系的能量,结构和分子轨道;计算分子间相互作用,如氢键及范德华作用。

2.材料化学模拟

简介:

针对材料科学领域研究者的科研需求,可以开展材料的电子结构计算、第一性原理计算、分子动力学模拟、建立分子的三维模型。以可视化方式对各种晶体、无定型以及高分子材料的性质及相关过程进行深入的研究。

主要功能:

搭建各种高分子、无定型聚合物、晶体以及界面模型,对小分子、高分子、晶体以及无定型聚合物等进行结构优化,得到合理的3D分子模型,键能、键长、键角以及相应的振动模式,HOMO和LUMO轨道,红外谱图和拉曼谱图等;计算多个物质间(小分子间、无定型聚合物间、界面间等)的相互作用能、结合能,包括分子间相互作用(氢键、静电相互作用等),化学键相互作用(共价键、配位键、离子键等)。对体系进行分子动力学模拟,体系平衡后,对体系中的物质进行RDF(径向分布函数)分析,MSD(均方根位移)分析,键长、键角以及末端距等结构变化分析等。分析化学反应过程,搜索反应的过渡态,从化学反应的热力学和动力学角度去判断化学反应的过程、反应的难易程度等;计算化学反应的势能变化(△E),焓变(△H),自由能变化(△G)等。模拟不同压力和温度等条件下,吸附剂骨架对吸附质分子的吸附过程,得到饱和吸附量、吸附的最佳位点、吸附能、吸附热等,判断骨架与分子的吸附形式(物理吸附与化学吸附);X射线衍射分析。

3.第一性原理计算

简介:

第一性原理计算是目前材料模拟和计算物质科学研究中最流行的方法之一。针对周期性或非周期性材料,开展第一性原理计算,获得材料的电子结构信息,对材料性质开展预测。

主要功能:

采用周期性边界条件(或超原胞模型)处理原子、分子、团簇、纳米线(或管)、薄膜、晶体、准晶和无定性材料,以及表面体系和固体;计算材料的结构参数(键长,键角,晶格常数,原子位置等)和构型;计算材料的状态方程和力学性质(体弹性模量和弹性常数);计算材料的电子结构(能级、电荷密度分布、能带、电子态密度和ELF);计算材料的光学性质;计算材料的磁学性质;计算材料的晶格动力学性质(声子谱等);表面体系的模拟(重构、表面态和STM模拟);从头分子动力学模拟;计算材料的激发态(GW准粒子修正)。

4.Gromacs

简介:

用于研究生物分子体系的分子动力学程序包。它可以用分子动力学、随机动力学或者路径积分方法模拟溶液或晶体中的任意分子,进行分子能量的最小化,分析构象等。它的模拟程序包包含GROMACS力场(蛋白质、核苷酸、糖等),研究的范围可以包括玻璃和液晶、到聚合物、晶体和生物分子溶液。GROMACS是一个功能强大的分子动力学的模拟软件,其在模拟大量分子系统的牛顿运动方面具有极大的优势。

主要功能:

计算结构和自由能;轨迹分析和均方位移;计算粘度;计算键长、键角、二面角;二面角主成分分析;氢键分析。

5.Lammps

简介:

主要用于分子动力学相关的一些计算和模拟工作,可以模拟液体中的粒子,固体和汽体的系综。也可以采用不同的力场和边界条件来模拟全原子,聚合物,生物,金属,粒状和粗料化体系。LAMMPS可以计算的体系小至几个粒子,大到上百万甚至是上亿个粒子。

主要功能:

计算结构和自由能;轨迹分析和均方位移;计算粘度;计算键长、键角、二面角;二面角主成分分析;氢键分析。

6.Amber

简介:

Amber是一个多个程序的集合包,大约包含50多个程序,相互协调工作,包含代码和演示的分子模拟软件包,由AmberTools和Amber组成,在多糖、核酸、蛋白质、质膜的模拟中有广泛应用。

主要功能:

计算结构和自由能;轨迹分析和均方位移;RMSD分析;RMSF分析;Cα角的分析;计算键长、键角、二面角;二面角主成分分析;氢键分析。

7.Autodock

简介:

Autodock是一款开源的分子对接软件,最主要应用于执行配体—蛋白分子对接,可以用于构建药物-靶标复合物结构、开展虚拟筛选研究。

主要功能:

刚性对接、半柔性对接、X-射线晶体学;基于结构的药物设计;先导化合物优化;虚拟筛选;组合库设计;蛋白—蛋白对接;化学机制研究。

  • 8.有元限模拟计算

    简介:

    应用有限元模拟软件,在化学、力学、电磁场、流体、传热、化工、MEMS、声学等领域开展模拟分析,描述电化学过程、材料的力学性能、物质、能量动量的输运等。

    主要功能:

    电磁学;结构力学、声学;流体流动、传热;化工;多功能;接口产品。

  • 软件培训部分服务内容
  • 应千百客户要求,中科科翼团队(由中科院教授、博士组成)近期将“与‘翼’俱进”计算模拟系列课程。本课程涵盖众多主流计算模拟专业软件,涉及化学、生物、材料等众多领域,每天10分钟,学习计算模拟技术,专注更专业,从入门到精通,轻松carry,让科研更容易!

    目前更新课程:

    分子力学软件:

    支持GPU加速、增强采样算法、自由能预测、QM/MM等方法。在蛋白质、多肽、多糖、核酸、磷脂等生物分子的模拟中有广泛应用。

    量子化学从头计算软件:

    声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

  • 上一篇 2022年5月13日
    下一篇 2022年5月13日

    相关推荐