人文大数据及其在数字人文领域中的应用

人文大数据及其在数字人文领域中的应用

陈静

南京大学艺术学院,江苏 南京 210031

论文引用格式:

陈静. 人文大数据及其在数字人文领域中的应用[J]. 大数据, 2022, 8(6): 3-14.

CHEN J. Humanities big data and its application in the field of digital humanities[J]. Big Data Research, 2022, 8(6): 3-14.

0 引言

1 人文大数据

2 人文大数据的“大”与“小”

人文数据可以很大。若将人文艺术领域跨越千年的各种类型的材料都加以数字化,那所形成的数据集将相当可观。以世界上最大的图书馆——美国国会图书馆为例,截至2021年,该馆馆藏超过17.3亿件,其中2 200万件藏品在“美国记忆”(American memory)项目的资助下被数字化,按照估算大概是9 PB,包括从公元10世纪至今的、来自66个国家的印刷书籍、期刊、照片、录音、 纸、地图、电影、手稿、法律文书、个人叙述、软件、 页、 络档案库和3D对象等多种格式的文件。尽管这个数字化数量已经相当惊人,但尚不能代表人类文明的总量。类似“美国记忆”的数字化项目在过去几十年间一直在进行中,积累了大量的人文大数据,也为相关研究者开展进一步的数据分析提供了基础条件。另一个人文大数据的例子是谷歌的N-gram项目,以让·巴蒂斯特·米歇尔为首的研究团队与谷歌图书合作开展的“基于百万数字图书的文化量化分析”基于谷歌大规模数字化书籍的语料库开展计算分析,并以可视化方式呈现人类文化的发展趋势。研究团队使用自然语言处理中较常用的N-gram模型,以单个词或多个词为单位,对来自全世界的大学图书馆的1 500万本数字化图书中的,从1800年到2000年的500万本,共计7种语言500亿字的文本进行了统计分析,对英语词汇量变化、英语语法的变迁、集体记忆与健忘、大众声望、审查检测等文化议题进行解读。由于该项目是基于200年间的词频波动进行观察的,因此得出的一些结果是非常具有启发性的。例如英语书籍中最常使用的词汇实际上比权威字典的要多,而且常用词中大约63%的英文词汇在齐夫定律(Zipf’s law)的测量下是低频使用词,更有52%的词汇是没有被收录到词典中的。这种通过对大数据集进行定量分析,从而学习人类文化的方式被命名为“文化测量”(cultural analytics)模式,相关成果于2011年在Science上发表。此后,不少学者也将此模式用于不同的文化数据集。例如卡莱弗·李塔鲁(Kalev Leetaru)对30年间全球的本地新闻进行了调性和地理分析,并成功预测了2011年在阿拉伯半岛发生的重大政治事件及该事件发生的地点。这种规模的数据集使从大规模尺度上对文化事件、趋势、变化进行计算测量成为可能,实现了传统人文学科无法企及的效果。

但对于人文数据而言,大数据的5个V(volume、variety、veracity、value、velocity)中的“volume”(体量大)是一个相对的概念。对于很多人文研究来说,数据集不会很大(如文本数据),几十万字甚至上百万字的文本也不过以KB为单位,相比生物数据之类的大数据而言,算得上小。但是,这些文本包含的内容及其可供研究的问题,并不能用体量来衡量。回顾数字人文的发展历史,很多“小”文本语料扮演了非常重要的角色。

从西方形成的人文计算到数字人文这个脉络来看,实际上我国在20世纪下半叶就开展了大量基于语料库的计算语言学研究,如从1979年到1983年,就有4个大型的现代汉语语料库项目在我国落地,即武汉大学的汉语现代文学作品语料库(1979年, 527万字)、北京航空航天大学的现代汉语语料库(1983年,2 000万字)、北京师范大学的中学语文教材语料库(1983年,106.8万字)和北京语言学院(1996年更名为北京语言大学)的现代汉语词频统计语料库(1983年, 182万字)。这些数据库和之后的国家级语料库、大规模真实文本语料库等专业数据库主要针对语言学方面的研究。面向更多领域学者的中文学术数据库多为图博档甚至是商业公司开发的基于典籍的文本图像或者全文数据库,如由香港迪志文化出版有限公司推出的文渊阁四库全书的电子版、由北京大学等高校与北京爱如生数字化技术研究中心合作建立的“中国基本古籍库”。与此同时,还有一些人文学者从研究需求出发开发的数字项目,如北京大学中文系开发的全唐诗分析系统与全宋诗分析系统、先在香港中文大学后迁至台湾政治大学的“中国近现代思想史研究专业数据库(1830—1930)”等。在这些项目中,数据规模虽大,类型各有不同,但数据库限定性比较强,往往只能进行检索,无法下载或者进行更深入的研究。关于此类问题,在近年来关于文献数字化的相关讨论中已经非常多了。尤其是研究者们已经关注到了以往数字化工作中的一些问题,如传统的古籍数字化大多是对原始纸质文献的图片展示,仅可检索编目数据,对内容仅以浏览为主,缺少全文提供,用户也无法按照自身的研究需求对数据进行深度挖掘和再利用等。相较而言,“中国历代人物传记数据库”(China biographical database,CBDB)和德龙(Donald Sturgeon)开发的“中国哲学书电子化计划”(Chinese text,Ctext)则兼顾了大数据与人文研究的属性。虽然CBDB的单机下载版总共不过几十MB(SQlite格式),但其中收录了超过52万位历史人物的传记资料,每个人物条目都包含了人名、时间、地址、职官、入仕途径、著作、 会区分、亲属关系、 会关系、财产、事件等数据,可供学者们开展统计分析、地理空间分析与 会 络分析等。值得一提的是, CBDB不仅涉及了中文文献的数字化、数据化(datafication)、数据清洗、数据分析、数据库搭建、软件开发以及数据可视化等一系列的数据全流程工作,而且非常仔细、详尽地记录和说明了整个数据库的发展历史、技术开发和数据处理过程,对其他人文大数据项目的建设极具参考价值。

3 人文大数据的多样性与语境化

葛剑雄教授曾经在讲座中提到,“运用现代科学技术,我有两个衡量标准,那就是,首先它最后的精确度有没有其他方法加以验证,其次它的结果有没有意义,能不能改变一个重大的学术论断。我发现大数据在历史研究中还是没有太大必要,因为我们掌握的数据不够,而且很多是二手甚至三手数据,盲目运用的结果就是可信度越来越低,误差也会越来越大,到最后还是需要人来做出判断和取舍,这是没有必要的”。这里他谈到关于大数据应用于历史研究的必要性,首先谈到的是数据的量不足,其次是数据的可信度低。关于数据的量,这点前文已经讨论过,对于人文数据而言,量并不是最重要的,过度强调大,其实是对大数据的一种化约式(reductive)的误读。实际上,大数据的多样性(variety)和真实性(veracity)往往发挥着更加重要的作用。

4 深层数据与智慧数据

那么,理想的人文大数据是什么样的?不妨从与 会科学的比较开始分析。通常 会学、经济学、政治学、传播研究和营销研究被认为更适合使用定量方法(即用于分析数据的统计、数学或计算技术),而人文学科,如文学研究、艺术史、电影研究和历史,则倾向于使用诠释学、参与观察、厚重描述、符 学和细读等方法。对于 会科学和人文研究而言,数字技术与大数据所带来的学科影响则以计算 会学(computational social science)和数字人文为代表。尽管两者在研究对象和研究方法上有相同与交叉,如皆以数字技术及数字文化为对象、都会涉及数据处理方法的应用,但两者也存在区别,如数据获取和处理的方式、研究问题的提出等。而从数据的层面来说,列夫·马诺维奇(Lev Manovich)将前一类可以适用于定量分析的,与大群人或团体有关的数据称为“表层数据”,将后一类与更为小众的群体有关的数据称为“深层数据”。他指出尽管基于大规模数据的 会计算(social computing)研究往往能提供关于人类在数字文化时代的行为和表现得更广泛的数字图景(digital landscape),但计算机在理解文本、图像、视频和其他媒介意义与语境方面具有的局限性,使这些研究都只能是基于简化维度的分析,甚至会受到错误数据的影响。而他所设想的理想状态则是将人所具有而计算机所不具有的理解和解释能力与计算机运用算法处理大规模数据的能力结合起来。这一点其实在有关“智慧数据”的讨论中也有所体现。

曾蕾、王晓光、范炜与克里斯托弗·绍什(Christof Sch?ch)分别曾撰文讨论过智慧数据。曾蕾等指出智慧数据是“实现大数据特征中最后一个‘V’——价值(value)的方法,即通过对任何规模的可信的、情境化的、相关切题的、可认知的、可预测的和可消费的数据的使用来获得重大的见解和洞察力,揭示规律,给出结论和对策”。借此他们提出,“智慧数据通常带有自描述机制,背后有领域本体作支撑,使这些数据符合特定的逻辑结构和形式规范,而且可以支持推理,由此形成智慧的基础,产生可预测和可消费的数据”。同时,还因为“智慧数据较强的可解释性,支持逻辑推理从而使之可以用于多种用途和支持多种互操作,并且具有很强的可追溯能力,能够满足人文研究范式的需要。”他们通过图博档中关于关联数据、图像深度标引和非物质文化遗产数据的元数据等议题来说明智慧数据具有的特性。绍什关于智慧数据的定义则更加简洁,即“我建议首先将大数据看作相对非结构化的、混乱的和隐含的、体积相对较大的、形式多样的。相反地,我建议将智能数据看作半结构化或结构化的、干净的和明确的,以及体积相对较小、异质性有限的。”两种定义从不同方面指向了智慧数据的价值和属性,可以帮助人们理解为什么在人文研究中学者会强调智慧数据。这恰恰是因为人文研究对数据的要求更高、更加苛刻,而人文数据,尤其是第一类通过数字化生成的人文数据,其数据的结构化程度、清洁度和可量化效果都是由数据生成过程,甚至是投入人力的多少来决定的。

5 计算很重要,但不是全部

随着大规模数据集的出现和数据分析方法的更新,计算的问题也越来越多地受到了学者的关注。在文学界,以佛朗哥·莫雷蒂(Franco Moretti)为代表的学者,包括马修·乔克斯(Matthew Jockers)、马修·威尔肯斯(Matthew Wilkens)和安德鲁·派珀(Andrew Piper)等在内,支持运用主题建模、 络分析等从海量数字化文学资料库中挑选出的语言与形式的宏观模式。尤其是莫雷蒂基于对大量小说文本信息(如标题)的统计分析形成的“远读”(distant reading)理论及研究方法对数字人文乃至整个人文学界影响深远。但从实际效果而言,莫雷蒂的“远读”方法也并没有真正从根本上解决布萨1949年提出的问题:如何用计算机使学者们快速而准确地深入研究诸如真实性、文本批评、风格、年代和翻译等一系列问题。在美国现代文学协会出版物(Publication of the Modern Language Association,PMLA)2017年组织的一次关于“远读”的讨论中,莫雷蒂对此作出了回应。他部分地赞同了苏真(Richard Jean So)教授对其的批评——“(莫雷蒂)所做的不过是对其语料的一个统计描述”,同时还指出安德鲁·派珀所提出的实现一种“模型的模型”(model of a model)是未来必然的发展路径。他指出,苏真等人及芝加哥大学文学实验室正在进行的“模式”的研究将完全改变理论所具有的可能性,将会改变历史与文学研究的关系,尤其是改变文学研究的时间性框架,历史将成为文学研究的前提。而“模型的模型”或者说“模式”正是计算文学努力通过量化计算实现的方法论尝试。赵薇指出,从莫雷蒂的概念模型到后来的文学实验室的计算批评,“实证研究”与文学阐释、文化批评被有机地融合在一起。量化文学研究的本质是根据研究的需要,选取合适的测量尺度和有效的测量手段,只有这样才能真正发现问题。

6 结束语

以上关于人文大数据的讨论,多将人文大数据看作为达到某种研究目的所使用的材料,但事实上大数据本身及大数据分析过程中产生的一系列伦理问题,如ImgaeNet这样的大规模图像数据集中具有的性别、种族偏见问题以及这些问题引发的相关算法缺陷问题、数据收集及清理背后的数据劳动问题等,引发了人文学者的普遍关注。人文大数据带来的问题不仅仅是研究范式的转变,其更成为研究问题本身。但很遗憾的是,目前从事数据科学的研究者们却较少与人文学者就人文大数据及大数据在人文研究中的价值展开直接而深入的讨论,期待此次专题能开启如此契机。

陈静(1981-),女,博士,南京大学艺术学院副教授,主要研究方向为数字人文、数字艺术与数字遗产。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年11月13日
下一篇 2022年11月13日

相关推荐