| 研究生: |
陳瑞得 Chen, Jui-Te |
|---|---|
| 論文名稱: |
以詐欺罪之構成要件與量刑因子為基礎建構類似案件推薦系統 A Similar Case Recommendation System Based on Actus Reus and Sentencing Factors: A Case Study of Fraud |
| 指導教授: |
劉昭麟
Liu, Chao-Lin |
| 口試委員: |
廖先志
Liao, Hsien-Jyh 王昱鈞 Wang, Yu-Chun |
| 學位類別: |
碩士
Master |
| 系所名稱: |
資訊學院 - 資訊科學系 Department of Computer Science |
| 論文出版年: | 2025 |
| 畢業學年度: | 114 |
| 語文別: | 中文 |
| 論文頁數: | 134 |
| 中文關鍵詞: | 法律案件檢索 、客觀構成要件 、量刑因子 、大型語言模型 |
| 外文關鍵詞: | Legal Case Recommendation, Actus Reus, Sentencing Factors, Large Language Models (LLMs) |
| 相關次數: | 點閱:49 下載:0 |
| 分享至: |
| 查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
本研究針對臺灣詐欺案件之類似案件檢索問題,提出一套結合法律專業知識的推薦系統。研究以檢察官撰寫之起訴書為資料來源,經解析與內容抽取後,建立結構化的案件資料庫,並以各案件「所犯法條」之組合作為驗證標準。在系統設計上,本研究導入法學專業知識,包括「客觀構成要件」與「事實型量刑因子」,並運用大型語言模型進行結構化資訊抽取;另以經驗法則建構「詐欺手法要素」作為比較基準。研究中比較多種推薦機制,包括語句組比較、語句分群與量刑因子選項對比,並引入 Distribution-Based Score Fusion(DBSF)方法以整合不同機制的推薦結果。同時,本研究亦採用語意嵌入模型之微調與基於 TF-IDF 的重新排序,兼顧語意與字面層次的相似性。在效能表現上,基於法學專業知識所建構之推薦機制(客觀構成要件與事實型量刑因子)整體優於以經驗法則(詐欺手法要素)為基礎之機制。最後,以起訴書所載「所犯法條」作為推薦案件命中判斷依據,在平均之precision、recall 與 F1-score 三項評估指標中,最佳實驗結果分別達到 85.22%、86.50% 與 83.96%。
This study proposes a recommendation system for retrieving similar fraud cases in Taiwan, grounded in legal expertise. Indictments drafted by prosecutors served as the primary data source; after parsing and information extraction, a structured case database was built, with the “combination of charged statutes” of each case serving as the evaluation benchmark. In system design, structured features derived from legal knowledge—namely actus reus and sentencing factors—were extracted using large language models, while custom fraud technique elements based on empirical rules were constructed for comparison. Multiple recommendation mechanisms were evaluated, including sentence group similarity, sentence clustering, and sentencing factor comparison, and a Distribution-Based Score Fusion method was introduced to integrate results across mechanisms. Performance enhancements further included fine-tuning of semantic embedding models and TF-IDF re-ranking to capture both semantic- and lexical-level similarity. Experimental results show that mechanisms grounded in legal knowledge (actus reus and sentencing factors) consistently outperform those based on empirical rules (fraud technique elements). Using applicable statutes in indictments as the ground truth for evaluation, the system achieved best results of 85.22% precision, 86.50% recall, and 83.96% F1-score.
摘要 i
Abstract ii
圖目錄 vi
表目錄 vii
第一章 緒論 1
第一節 研究背景 1
第二節 問題定義 4
一、 詐欺案件的類似性定義 4
二、 詐欺類似案件推薦 5
三、 基於法學知識的結構化案件內容 6
第三節 主要貢獻 7
第四節 論文架構 8
第二章 相關研究 9
第一節 法律案件檢索系統 9
第二節 法律文本語意建模與結構化 10
第三節 語言模型與語意向量應用於法律文本 10
第四節 多推薦機制整合 11
第三章 資料來源與基本前處理 12
第一節 資料來源 12
第二節 原始起訴書解析與內容抽取 17
一、 抽取「犯罪事實」 18
二、 抽取「所犯法條」 20
三、 抽取「附表中與詐欺手法相關之內容」 21
四、 起訴書解析結果 22
第三節 所犯法條組合作為案件標記 23
第四章 研究方法 29
第一節 基於法學知識之結構化資訊抽取 29
一、 客觀構成要件之提示設計 30
二、 事實型量刑因子之提示設計 38
三、 詐欺手法要素之提示設計 44
第二節 推薦機制 48
一、 整體系統架構 48
二、 語意嵌入模型與微調 50
三、 客觀構成要件之語句組比較 55
四、 客觀構成要件之語句分群 58
五、 事實型量刑因子選項對比 62
六、 詐欺手法要素之語句組比較與語句分群 67
七、 Distribution-Based Score Fusion 72
八、 TF-IDF重排序 73
第五章 研究結果 76
第一節 驗證方法 76
一、 建構查詢案件資料集 76
二、 效能評估指標 77
第二節 結果與分析 78
一、 單一機制效能 78
二、 DBSF整合機制效能 82
三、 F1-score箱型圖分析 84
四、 人工驗證結果 85
第六章 結論 87
第一節 研究總結 87
第二節 語料選用 88
第三節 研究限制 89
第四節 未來研究方向 90
參考文獻 91
附錄A:完整統計數據 93
附錄B:完整提示 102
附錄C:學位考試委員提問、建議與回應整理 114
附錄D:國際研討會評審建議、回應整理 122
[1] 內政部警政署, “內政部警政署 165 打詐儀表板,”[線上]. Available: https://165dashboard.tw/. [存取日期: 2 June 2025].
[2] 法務部,“法務部檢察機關公開書類查詢系統,”[線上]. Available: https://psue.moj.gov.tw/psiqs/. [存取日期: 2 June 2025].
[3] 司法院,“司法院裁判書系統,”[線上]. Available: https://judgment.judicial.gov.tw/FJUD/default.aspx. [存取日期: 2 June 2025].
[4] 司法院,“事實型量刑資訊系統,”[線上]. Available: https://intellisen.judicial.gov.tw/. [存取日期: 11 June 2025].
[5] 藍家樑, 中文訴訟文書檢索系統雛形實作, 國立政治大學資訊科學系, 2009.
[6] 謝淳達, 利用詞組檢索中文訴訟文書之研究, 臺北: 國立政治大學資訊科學系, 2005.
[7] 呂凱煜, 基於向量空間模型之智慧型文件搜尋系統開發-以台灣醫療糾紛判決書為例, 中山醫學大學醫學資訊學系, 2021.
[8] Paheli Bhattachary, Kripabandhu Ghosh, Arindam Pal, Saptarshi Ghosh, Methods for Computing Legal Document Similarity: A Comparative Study, 2022.
[9] 曹錫璋, 基於深度學習模型之判決書情境相似檢索技術, 臺中: 國立中興大學資訊科學與工程學系, 2021.
[10] Yinglong Ma, Peng Zhang, Jiangang Ma, An Efficient Approach to Learning Chinese Judgment Document Similarity Based on Knowledge Summarization, arXiv(Computing Research Repository, CoRR), 2018.
[11] Zhilong Hong, Qifei Zhou, Rong Zhang, Weiping Li, Tong Mo,“Legal Feature Enhanced Semantic Matching Network for Similar Case Matching,”2020 International Joint Conference on Neural Networks (IJCNN 2020).
[12] 楊長諭, 運用句法規則於命名實體辨識之研究, 雲林: 國立雲林科技大學資訊管理系碩士班, 2013.
[13] Wan-Chen Lin, Tsung-Ting Kuo, Tung-Jia Chang, Chueh-An Yen, Chao-Ju Chen, and Shou-de Lin,“利用機器學習於中文法律文件之標記、案件分類及量刑預測,”International Journal of Computational Linguistics & Chinese Language Processing (IJCLCLP), 第十七卷, ROCLING XXIV精選論文特刊, 2012.
[14] Lu Gu, Wenjing Zhang, Yao Wang, Bo Li, Song Mao,“Named Entity Recognition in Judicial Field Based on BERT-BiLSTM-CRF Model,”2020 International Workshop on Electronic Communication and Artificial Intelligence (IWECAI), 2020.
[15] P.-H. Wu, C.-L. Liu, and W.-J. Li.,“An empirical evaluation of using ChatGPT to summarize disputes for recommending similar labor and employment cases in Chinese,” Proceedings of the Eighteenth International Workshop on Juris-Informatics, 2024.
[16] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova,“BERT: Pre-training of deep bidirectional transformers for language understanding,”Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), 2019.
[17] Ilias Chalkidis, Manos Fergadiotis, Prodromos Malakasiotis, Nikolaos Aletras, Ion Androutsopoulos,“LEGAL-BERT: The Muppets Straight Out of Law School,”Findings of the Association for Computational Linguistics: EMNLP 2020.
[18] Chaojun Xiao, Xueyu Hu, Zhiyuan Liu, Cunchao Tu, Maosong Sun,“Lawformer: A pre-trained language model for Chinese legal long documents,”AI Open, 第二冊, p.79–84, 2021.
[19] 張子軒, 法律案件推薦系統—以內容為基礎過濾, 國立陽明交通大學管理科學系所, 2023.
[20] Philip Chung and Akshay Swaminathan and Alex J. Goodell and Yeasul Kim and S. Momsen Reincke and Lichy Han and Ben Deverett and Mohammad Amin Sadeghi and Abdel-Badih Ariss and Marc Ghanem and David Seong and Andrew A. Lee and Caitlin E. Coombes and Brad B,“VeriFact: Verifying Facts in LLM-Generated Clinical Text with Electronic Health Records,”arXiv preprint arXiv:2501.16672, 1 2025.
[21] 王皇玉, 刑法總則, 第八版 編者, 新學林, 2022.
[22] Chao-Lin, Liu and Yi-Fan, Liu, “Some practical analyses of the judgment documents of labor litigations for social conflicts and similar cases,”CEUR Workshop Proceedings 3423: Proceedings of the Third International Workshop on Artificial Intelligence and Intelligent Assistance for Legal Professionals in the Digital Workplace (LegalAIIA 2023), ICAIL, Braga, Minho, Portugal, 2023.
[23] C. D. Manning, P. Raghavan, and H. Schütze, Introduction to Information Retrieval, Cambridge, U.K: Cambridge University Press, 2008.
[24] J. Richard Landis and Gary G. Koch,“The Measurement of Observer Agreement for Categorical Data,”Biometrics, 33, pp.159-174, 1977.
全文公開日期 2030/11/26