研究背景与研究意义

卜凯农户调查、满铁东北实态调查是民国时期不可多得的高质量农户微观历史调查数据,二者地域互补、口径相似。学界鲜有人针对二者进行综合利用。本研究项目从历史学与人工智能结合的视角出发,对两套历史数据进行了系统整合。研究通过对卜凯农户调查、满铁东北实态调查中的部分农户层级数据进行含义厘清、数据清洗、人工分类匹配、机器自然语言模型匹配、分类统合等工作,初步建立一套可以覆盖中国绝大部分农业地区、口径统一、含义清晰、可供计量分析的量化数据库。目前,数据库已整合多层级数据,形成覆盖人口、土地、生产、收支等多维度的结构化数据集,并通过数据库网站公开。研究成果为近代农业经济史研究开辟了新的空间,是人工智能与历史学深度融合的一次数字人文实践。

研究团队

本数据库建设项目由中国人民大学明德书院历史学院2023级本科经济、社会、历史实验班的孟子涵担任负责人,研究团队核心成员还包括来自中国人民大学统计学院的周翔宇、经济学院的王浩成、刘晓文康、程育彰。研究助教为中国人民大学农业与农村发展学院研究生冯泽林。研究得到了中国人民大学农业与农村发展学院翟润卓、高原两位老师的悉心指导。

数据简介

1. 卜凯农户调查数据

• 原始资料:本团队使用的卜凯数据,其根本来源是南京农业大学团队整理并公开出版的《卜凯农户调查数据汇编(1929~1933)》系列书籍(共13册)。该系列书籍是基于2000年在南京农业大学发现的卜凯调查原始资料(研究过程中形成的中间表格),经过十余年的抢救性整理、录入、核对与修复后构建的微观农户信息数据库。

• 数据化:由于公开出版物为PDF影像格式,无法直接进行计量分析,自2023年秋季起,中国人民大学农业与农村发展学院高原教授团队组织了对该系列书籍的数据化转换工作。团队将13册书籍中的表格数据重新录入,并进行了标准化处理,最终形成了可供统计与计量分析的Excel格式数据文件。本团队在此基础上,进一步开展了数据表头扁平化、变量定义、深度数据清洗等工作,构建了包含近6500户家庭、超过4600个变量的卜凯农户量化数据库。

2. 满铁东北实态调查数据

• 原始资料:满铁(南满洲铁道株式会社)调查的原始资料散存于各地,未有成套出版的微观数据集。其主要来源包括:国家图书馆出版社出版的"民国时期社会调查资料"系列丛书、日本国立国会图书馆藏资料、中国的"近代日本对华调查档案资料汇编",以及东洋文库、HathiTrust等机构提供的部分电子版资源。这些资料覆盖了绝大多数1935年至1939年间出版的伪满洲国东北地区的农村实态调查报告。

• 数据化:自2024年夏季起,中国人民大学农业与农村发展学院高原、翟润卓团队组织开展了对该部分散乱调查资料的系统收集、整理与电子化录入工作。本研究团队在这批录入数据基础上进行工作,工作内容包括:对原始日文影像资料进行重新编号与元数据补充;利用大语言模型辅助进行日文识别、翻译与校对;对各地方混乱的度量衡单位进行详细考证与统一换算;对数据进行清洗、扁平化处理,并按调查轮次(如"康德元年度"、"康德二年度")进行跨县整合与变量定义。目前已完成其中两轮核心调查的数据化整合,形成了涵盖超过650户家庭、超过2000个变量的结构化数据集。

3. 整合数据

网页上发布的"整合数据集"是上述两套数据经过匹配与整合后的成果。项目组通过"人工主导、机器辅助"的方式,将卜凯数据与部分满铁数据(康德元年度、康德二年度)的表头变量按类别进行比对和匹配,最终形成了一个覆盖全国83个调查点、共计7326个农户家庭的统一口径量化数据库。

致谢

本研究的顺利开展与最终成果的取得,首先得益于中国人民大学"求是学术"育人育才项目所提供的关键平台与经费支持。作为"求是学术-强国"品牌研究项目,我们获得了从立项、指导到经费支持的全方位保障。

我们向项目的指导老师——中国人民大学农业与农村发展学院的翟润卓老师与高原老师——致以最衷心的感谢。两位老师以其深厚的学术底蕴与前瞻的视野,为本研究提供了从选题立意、方法论构建到具体分析的关键指导。他们严谨的治学态度与对学生的悉心栽培,是项目得以深入推进的根本。

我们亦深深感谢本项目团队的所有成员:统计学院的周翔宇同学,经济学院的王浩成、程育彰、刘晓文康同学,以及项目助教冯泽林同学。在历时一年的研究过程中,大家凭借跨学科的知识背景与高度的协作精神,在史料爬梳、数据清洗、报告撰写等各个环节中通力合作,共同克服了诸多困难。

此外,本研究建立在众多前辈学者与数据录入员筚路蓝缕的开拓工作之上,我们谨对相关领域的基础研究与数据整理工作致以崇高敬意。

最后,感谢所有为本研究提供过直接或间接帮助的老师、同学们。本数据库的建设仍是一个持续的过程,我们期待它能成为近代农村社会经济史研究领域的一块有用的基石,我们欢迎各方学者的使用、指正与共同完善。

民国时期全国性农户量化数据库构建研究 项目组
二零二六年三月

联系我们

电子邮箱:rcfqd_project@163.com