在近日舉行的“中俄數字經濟示范項目——數字人文技術直播”活動上,中華農業(yè)文明研究院數字人文研究中心包平,發(fā)表了自己對數字時代歷史研究發(fā)展的看法。
為什么要做這項工作?包平解釋:中國有一個特殊歷史文獻方志,之前叫地記、圖經,是一種中華獨有的歷史文獻,據中華書局《中國地方志聯(lián)合目錄》 (1985)記載,我國歷代(南朝宋至1949)方志8200余種;收錄范圍:通志、府、州、廳、縣志、鄉(xiāng)土志、里鎮(zhèn)志、衛(wèi)志、所志、關志、島嶼志,以及一些具有志書體例和內容的方志初稿、采訪冊、調查記等,山、水、寺廟、名勝等志除外;據《中國數字方志庫》,收錄11000種,這里還有旅游志和一部分國外的,我們現在正在普查,對地方志里記載有物產的都收集起來,盡可能把國內外收集全。地方志古籍文獻約占中華古籍十分之一。
很長一段時間,數字化和網絡化技術還沒有發(fā)展,我們用手工方式把手抄本資料進行專題提煉,曾經出過八個專題。后來在這個基礎上開展一些專題研究,出版了一些專著。王利華教授曾飽含深情的回憶:“一度雄心勃勃地想要從人的生物屬性和自然環(huán)境因素出發(fā)重新解說中國史,于是利用中國農業(yè)遺產研究室所珍藏的大量動植物文獻,開始寫些不倫不類的文章”;恰恰是這些交叉性的思維,構建了他中國環(huán)境史的理論體系。
包平表示,當前正在構建"數字人文+科技史研究"的模式,開展數字人文研究基礎設施。自2008年開始,基于內容的智能知識組織與知識挖掘,已解決或正在解決的技術問題:
1、古籍資源收集、整序、??迸c知識庫構建技術。這個永遠在路上,因為資料本身有殘缺,也有一些誤傳,這里工作一直要做,我們有基礎團隊在做這項工作。
2、標注標準的建立與本體構建。基于這些素材庫怎么樣建立一些標準,建立一些規(guī)范,建立計算機識別進一步加工中間的素材庫。
3、實體的智能識別優(yōu)化方案目前我們做了多套方案,從當初的規(guī)則和統(tǒng)計,到最后調節(jié),到現在深度學習等等。
4、知識重組、再造與活化,將來這套資料碎片化,經過精準標注,根據需求重組再造,應用活化。
5、基于GIS和社會網絡德克士華時空關聯(lián)展示與分析。
6、數據源不同展示。
數字時代歷史研究的現實需求,數據時代可在當下和未來使史學家成為數據文獻專家;計量史學讓習慣于歸納和演繹的傳統(tǒng)學者打開了新的觀察和分析問題的視角,"數據"與"問題"驅動相互驗證、啟發(fā);結合微觀史精于處理文獻的優(yōu)勢,學會采用大圖景、大歷史的研究維度,讓史學與其他學科融會貫通、更好地服務于現實需求與社會發(fā)展。