| 研究生: |
陳威全 Chen, Wei Chuan |
|---|---|
| 論文名稱: |
數位人文研究以詞性類別為指標區分文本類型之可行性研究-以漢語之人稱代詞、情態動詞及動詞為例 Applying Part of Speech as indicators for distinguishing corpus type in Digital Humanities Research - A case study of Personal Pronouns, Modal Verbs and Verbs in Chinese Mandarin. |
| 指導教授: | 劉吉軒 |
| 學位類別: |
碩士
Master |
| 系所名稱: |
理學院 - 資訊科學系 |
| 論文出版年: | 2017 |
| 畢業學年度: | 105 |
| 語文別: | 中文 |
| 論文頁數: | 181 |
| 中文關鍵詞: | 數位人文 、漢語語言學 、文本分析 、人稱代詞 、情態動詞 、動詞 |
| 外文關鍵詞: | digital humanities, chinese linguistics, text analysis, personal pronoun, modal verb, verb |
| 相關次數: | 點閱:220 下載:17 |
| 分享至: |
| 查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
自早期以來,資訊技術在各種不同的領域都扮演著一個輔助工具的角色,早期像是各種領域的資料庫建立、利用邊緣偵測可作為藝術畫作的真偽辨識、建立不同的語料庫等等,隨著科技的進步,現今對於資訊技術的應用更是廣泛,其中數位人文即是很好的例子。在資訊科學的領域裡,我們利用資料探勘、資訊檢索、社會網路分析等等,這些已經發展成熟的資訊技術,應用在社會人文科學的研究領域上,除了可以建立一套有系統架構的史料文本資料庫方便檢索之外,還能夠有助於人文研究者從更多元的研究角度透視自身的研究,以達到更縝密的研究成果。
本研究以中央研究院漢語平衡語料庫、自由中國雜誌及取自《二二八事件臺灣本地新聞史料彙編》書中的台灣新生報為研究文本,將數位化後的原始文本資料進行斷詞、詞性標記等等的前處理。本研究將定位在嘗試以人稱代名詞、情態動詞、動詞三大漢語詞類為研究元素,探討以單一詞類、雙詞類組合、三詞類組合而形成的指標,能否使未知的研究資料利用本研究的指標將研究資料進行初步的過濾,以利後續研究進行。
Since the early days, information technology has been playing a supporting role in various fields, such as creating databases in various fields, the use of edge detection as the authenticity of paintings, the establishment of different corpus.With the advancement of science and technology, the application of information technology is now more extensive, in which Digital Humanities is a good example. In the field of information science, we use data mining, information retrieval, social network analysis, etc., which have been well-developed, applied in the field of social and humanities science research.
In addition to the establishment of a systematic architecture of the historical data for facilitating the retrieval, the text database can help the humanistic researchers to look into their own research from more diverse perspective, in order to achieve more careful research results.
In this study, the Acadenia Sinica Balanced Corpus of Modern Chinese, Free China Magazine and the Taiwan Shin Sheng Daily News were used as the research text. This study will focus on the three major Chinese word classes, ie, personal pronouns, modal verbs and verbs, and explore whether the indicators formed by the combination of a single word class, two-word class, and three-word class can make unknown corpus text materials use this study indicators to facilitate follow-up studies.
第一章 緒論 1
1.1 研究背景 1
1.2 研究動機與目的 2
1.3 研究資料 4
1.3.1 二二八事件臺灣本地新聞史料彙編 5
1.3.2 自由中國雜誌 6
1.3.3 中央研究院漢語平衡語料庫 7
1.4 論文架構 9
第二章 文獻探討與回顧 11
2.1 數位人文研究之背景及發展 11
2.2 代名詞與人稱代詞 14
2.2.1 人稱代詞 15
2.2.2 人稱代詞與人際距離之關係 15
2.2.3 人稱代詞的人際心理功能與政治語言 16
2.3 情態動詞 17
2.4 動詞 18
2.5 詞彙共現關係 18
2.6 小結 20
第三章 研究流程、架構與實驗方法 21
3.1 研究流程與架構 21
3.2 文本資料前處理 23
3.2.1 文本異體字修正 23
3.2.2 中文文本資料斷詞及詞性標記 24
3.2.3 情態動詞“會”的修正 25
3.3 實驗 28
3.3.1 擷取詞彙規則 28
3.3.2 以人稱代詞、情態動詞及動詞交互搭配之指標設計 30
3.4 實驗說明與實驗數據正規化 31
3.5 詞彙基準量的平均值與標準差 平均值與標準差之母體文本與採樣文本的選擇 35
3.5.2 平均值與標準差的計算修正 36
3.6 單詞指標 37
3.7 雙詞指標 37
3.8 三詞指標 38
第四章 實驗結果與分析 39
4.1 實驗資料 39
4.2 平衡語料庫全文與平衡語料庫依主題屬性分類後之文本比較 40
4.2.1 單詞指標結果探討 40
4.2.2 雙詞指標結果探討 47
4.2.3 三詞指標結果探討 53
4.3 自由中國雜誌與漢語平衡語料庫全文之文本比較 55
4.3.1 單詞指標結果探討 55
4.3.2 雙詞指標結果探討 65
4.3.3 三詞指標結果探討 78
4.4 自由中國雜誌與平衡語料庫屬性為一般雜誌之文本比較 81
4.4.1 單詞指標結果探討 81
4.4.2 雙詞指標結果探討 91
4.4.3 三詞指標結果探討 101
4.5 台灣新生報與漢語平衡語料庫報紙屬性之文本的比較 106
4.5.1 單詞指標結果探討 106
4.5.2 雙詞指標結果探討 117
4.5.3 三詞指標結果探討 128
第五章 研究結論與未來研究方向 132
5.1 研究結論 132
5.2 研究限制 134
5.3 未來研究方向 135
REFERENCE 136
附錄 140
附錄 A :漢語平衡語料庫全文 v.s.平衡語料庫依「主題」分類的文本 140
附錄 B:漢語平衡語料庫全文 v.s.自由中國雜誌 147
附錄 C:自由中國雜誌 v.s.漢語平衡語料庫「一般雜誌」屬性之文本 154
附錄 D:台灣新生報 v.s.漢語平衡語料庫「報紙」屬性之文本 161
王惠 (2002),基於組合特徵的漢語名詞詞義消歧,Computational Linguistics and Chinese Language Processing,7(2), 77-88.
王汎森 (2014),數位人文學之可能性及限制—一個歷史學者的觀察,載於項潔(主編),數位人文研究與技藝。國立台灣大學出版中心。
白明弘、吳鑑城、簡盈妮、黃淑齡、林慶隆 (2016),基於詞語分佈均勻度的核心詞彙選擇,Computational Linguistics and Chinese Language Processing,21(2), 1-18.
李櫻 (2000),漢語研究中的語用面向,漢學研究,18,323-356。
杜協昌 (2012),利用文本採礦探討《紅樓夢》的後四十回作者爭議,第四屆數位典藏與數位人文國際研討會論文集,台灣大學數位典藏研究發展中心,135-162
林元輝 (2009),《二二八事件臺灣本地新聞史料彙編》,二二八基金會。
邱偉雲 (2011),關鍵詞叢與文本意義挖掘的嚐試:以《清季外交史料》為例,載於項潔(主編),數位人文在歷史學研究的應用(159-188),國立台灣大學出版中心。
洪惟仁 (2000),古漢語格變化與人稱代詞的演變,第十八屆聲韻學學術研討會論文,台北,輔仁大學。
洪千惠 (2011),從語料庫統計的觀點分析美國之音新聞英文被動句中文譯文,編譯論叢,4(2),25-53
張麗麗、陳克健、黃居仁 (2000),漢語動詞詞彙語意分析:表達模式與研究方法,Computational Linguistics and Chinese Language Processing, 5(1), 1-18.
陳力綺 (2007),中文政治言談中的第一人稱代詞之研究(碩士論文),國立清華大學碩士論文,新竹市。
項潔、陳麗華 (2014),數位人文-學科對話與融合的新領域,載於項潔(主編),數位人文研究與技藝,10-23。
項潔、涂豐恩 (2011),導論—什麼是數位人文,載於項潔(主編),從保存到創造:開啟數位人文研究,10-28。
鄭文惠 (2014),從人文到數位人文:知識微縮革命與人文研究範式的轉向,人文與社會科學簡訊,15(4),169-175。
鄭盈盈 (2014),人稱代詞在政治語境中的應用-以俄漢人稱代詞“我”和“我們”為例,人文資源研究學報,15,175-189。
鄭盈盈 (2014),俄語人稱代詞的人際意義(以雜誌廣告語篇為例),淡江外語論叢,23,21-37。
謝佳玲 (2006),漢語情態詞的語意界定:語料庫為本的研究,中國語文研究,1,45-63。
羅盤針、鄭碩、江安淇、曾博揚 (2016),以語料庫分析取徑探究台灣新聞中的跨性別:以聯合知識庫為例,數位典藏數位人文DADH 2016國際研討會論文集,台灣大學數位人文研究中心,429-450。
Biber, D., Conrad, S., Reppen, R., Byrd, P., & Helt, M. (2002). Speaking and Writing in the University: A Multidimensional Comparison. TESOL Quarterly, 36(1), 9-48. doi:10.2307/3588359
Biber, D. (2006). Vocabulary use in classroom teaching and textbooks,In D. Biber (Eds) University language: A corpus-based study of spoken and written registers. (pp.33-36). Amsterdam:John Benjamins.
Baker, P. (2014) "Bad wigs and screaming mimis": Using corpus-Assisted techniques to carry out critical discourse analysis of the representation of trans people in the British press. In C. Hart and P. Cap (eds), Contemporary Critical Discourse Studies. London, Bloomsbury: 211-236
Christine, L. B. (2016).資料、檔案、中文佛典文獻學:談數位人文之挑戰,數位典藏數位人文DADH 2016國際研討會論文集,台灣大學數位人文研究中心,2。
Pressman, J., & Swanstrom, L. (2013) The Literary And/As the Digital Humanities, Digital Humanities Quarterly, 7(1).
Goffman, E. (1981). Footing. In E. Goffman (Eds.), Forms of Talk.(pp.124-159). Philadephia : University of Pennsylvania Press.
Marco, M. J. L. (1999). Procedural vocabulary: Lexical signaling of conceptual relations in discourse. Applied Linguistics, 20(1), (pp.1-21).
Liu, J., Lee, C., Ning, K. (2016). Evaluating Modal Use in News Corpus for Constructing Rhetorical Context of Historical Event. In Digital Humanities 2016: Conference Abstracts. Jagiellonian University & Pedagogical University, Kraków, pp. 262-266.
Li, R. (2004). Modality in English and Chinese: A Typological Perspective. (Ph.D. thesis), University of Antwerp.
Rettie, R. (2004). Using Goffman’s Frameworks to Explain Presence and Reality, PRESENCE 2004.
Greene, S. B., McKoon, G., & Ratcliff, R. (1992). Pronoun Resolution and Discourse Models, Journal of Experimental Psychology: Learning, Memory, and Cognition, 18(2), 266-283.
Kuo, C. (1999). The Use of Personal Pronouns: Role Relationships in Scientific Journal Articles, English for Specific Purposes, 18(2),121–138.
Rubenstein, M. W. (2010). Like You Do a bilingual perspective on the indefinite second person(Senior Essay in Linguistics), Department of Linguistics, Yale College.
Kamio, A. (2001). English generic we, you, and they: an analysis in terms of territory of information. Journal of Pragmatics, 33(7), 1111-1124. doi:10.1016/s0378-2166(00)00052-7