2016年4月12日 星期二

數位人文雜談:文本分析、細讀與遠讀、詞彙標記

 

「文本分析」對我來說是一個非常有趣的課題,早在高中時代就非常喜歡「讀者反應理論」,覺得這些文學批評的學者真的是太厲害了XD

現在從事計算機相關領域還可以接觸到這些「先知般」的學科真是很有福份呀 : )




一、淺談文本


講到人文、文本探勘中的核心思想,一定要了解「文本」的概念;究竟什麼是文本呢?

「文本」是「一組再現的符碼所組成的表意結構」;文本(text)拉丁文字源──意為「編織」,用來指作品的「原文」。

過去習以「作品」來稱文學的書寫成果,強調的是「作者」的創造,在 60 年代法國羅蘭巴特提出「作者已死」,認為作品有自己獨立的生命,強調讀者閱讀的愉悅之後,「作品」的說法逐漸被「文本」一詞取代。


傳統語言符號認為符徵有表意作用指向意義的符指;但解構學者認為符徵互相指涉,在它們形成的空間中充份運動,作意義和結構的無窮變化。

文本的三個層次:

  • 文字作品(Written work) : 最傳統的定義。
  • 文化作品(Cultural work) : 廣告、電視劇、電影、攝影、網頁…
  • 文化實做(Cultural practice) : 有但書的,一旦他表達了某種意義,就可以是個文本。可能是建築、可能是衣著... 而到此文本的意義已經被放大了,要解讀這樣層次的文本更需要脈絡的分析。

文本的三個特質:

  • 文本是詮釋的、要被讀
  • 文本是互相關聯的(interrelated)
  • 文本是社會化的,受到不同的社會類屬所影響。例如我們說教育是最重要的社會化過程,而這個過程中就充滿了各種社會化所需要的文本。




二、數位人文的動機:細讀與遠讀


數位人文的動機,起緣於過去在圖書館工作的人文學者對大量文件進行分析;而這些大量文件的分析藉由數位時代的「強化」,可以做到過去難以企及的解析。數位人文相關的論文,主要有以下分類:

  • 單一文件分析(single text)
  • 平行文件分析(parallel text):與譯文並行放置的文本。
  • 語料庫分析(Corpus):大量的文本,通常經過整理,具有既定格式與標記

1980年至2015年,從文本編碼運動(Text Encoding Initiative)開始到視覺化(Visualization),現今在大數據(big data)的推波助瀾下,視覺化已然成為顯學。簡單的說,數位人文可以看作細讀(Close Reading)和遠讀(Distant Reading)的「戰爭」。

細讀:去挖掘文字之下不同的層次,帶來更深的理解。




遠讀:不去「閱讀」,而是用數學工具等方法去拆解重組(可能破壞原始文本)。




細讀和遠讀的結合可以引導讀者進行更深入的認識。視覺化真的帶來知識嗎?人文有形塑生產流程的可能嗎?以數位人文的觀點,我們得以重新檢視人文、歷史等學門的未來與價值。





三、極簡易標記工具簡介:MARKUS、詞夾子工具



1. MARKUS


MARKUS利用已知之詞彙資料庫(人名、別名、地名、官職、時間)去文本中找尋該詞彙是否有出現,若有出現則將之標記起來。

http://dh.chinese-empires.eu/beta/index.html




2. 詞夾子


利用已知詞彙找出夾住該詞彙的前後詞(詞夾)。

http://dev.digital.ntu.edu.tw/DADH-2015/

初始種子詞彙 : 花蓮,太魯閣,金門,沙美,金城鎮,尚義機場,雕塑文化園區,桑園工坊



輸入初始種子詞彙後得到候選詞夾,藉由人工選擇「好」的詞夾



藉由詞彙、詞夾的迭代產生所有的名詞種類(如地名、美食名等)



一共大約跑 3 ~ 5 次迭代即可找到大多數所欲查找的詞彙,這種非常簡單的機器檢索與人工反饋結合效果驚人,大概到第 3 次迭代就可以找到大量正確的詞彙





References


人文學者與數位人文研究 ─ 翁稷安博士 : On close and distant reading in DH a Survey

MARKUS
http://dh.chinese-empires.eu/beta/index.html

拉唧筒 - 文本分析
http://samsaratata.pixnet.net/blog/post/18360844-%E6%96%87%E6%9C%AC%E5%88%86%E6%9E%90

詞夾子
http://dev.digital.ntu.edu.tw/DADH-2015/







技術提供:Blogger.