| 研究生: |
黃仁澤 |
|---|---|
| 論文名稱: |
對於高維度資料進行特徵選取-應用於分類蛋白質質譜儀資料 |
| 指導教授: |
郭訓志
薛慧敏 |
| 學位類別: |
碩士
Master |
| 系所名稱: |
商學院 - 統計學系 Department of Statistics |
| 論文出版年: | 2005 |
| 畢業學年度: | 93 |
| 語文別: | 中文 |
| 中文關鍵詞: | 蛋白質體學 、蛋白質質譜 、表面強化雷射解吸電離飛行質譜技術 、特徵選取 、支援向量機 |
| 相關次數: | 點閱:173 下載:0 |
| 分享至: |
| 查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
傳統的腫瘤指標篩檢方法,往往靈敏度、普及度及特異性有限,無法得到正確、即時的診斷結果。現今癌症的研究,則透過蛋白質體學經由光譜及影像觀察癌症不同時期的蛋白質表現變化,期望未來得以發展較佳之診斷工具。本研究中主要針對兩組攝護腺癌症病人之蛋白質質譜資料,此資料應用蛋白質晶片與表面強化雷射解吸電離飛行質譜技術(SELDI-TOF-MS)收集而來。我們的研究目的在於從大量的蛋白質特徵中篩選出一群有助於分類的蛋白質特徵變數。我們提出以最小分錯率特徵選取法與最小p值( 檢定、Kruskal-Wallis檢定)特徵選取法進行初步特徵辨識度排序以及選取,並進一步發展出k-mean萃取法、最大相關係數萃取法與判定係數萃取法以改善變數間嚴重的共線性問題。我們利用支援向量機(Support Vector Machine)方法進行分類並評估分類效果,在不同的分類目的下萃取有助於辨識的蛋白質特徵,以決定最佳特徵集合。研究發現運用最小分錯率特徵選取法與最小p值分錯率特徵選取法,輔以判定係數萃取法,在各分類目的下皆有良好表現,為較佳的特徵選取方式。
第一章 緒論 1
第二章 蛋白質質譜資料 5
第一節 蛋白質與癌症 5
第二節 表面強化雷射解吸電離飛行質譜技術 6
第三節 資料來源 8
第四節 攝護腺癌症的診斷與分期 14
第三章 特徵選取 16
第一節 最小分錯率向前選取法 17
第二節 最小p值特徵選取法 23
3.2.1 兩獨立樣本t檢定選取 23
3.2.2 Kruskal-Wallis檢定選取 27
第三節 特徵篩選法之改進 35
3.3.1 k-mean分群萃取法 36
3.3.2 最大相關係數特徵萃取法 39
3.3.3 判定係數特徵萃取法 43
第四章 結論與建議 48
參考書目 50
附錄 52
[1] 王雅芬譯,(2003),Sheldon Marks著,攝護腺健康500問,台北:原水文化。
[2] 西滿正著,(1996),癌的最新診斷與治療,台北:建宏。
[3] 江漢聲著,(1991),攝護腺-疾病與保健,台北:健康。
[4] 「男人的隱憂」前列腺肥大與前列腺癌,(2001.5.19),聯合報。
[5] 長庚大學台灣蛋白質體學簡介(2002)。取自
http://memo.cgu.edu.tw/inscorelab/corelab/Intro.htm
[6] 周業仁譯,(2003),Karl A. Drlica著,DNA的14堂課,台北:天下文化。
[7] 周慧中譯,(2003),Philip Ball著,看不見的分子,台北:天下文化。
[8] 國家衛生研究院電子報,(2004-06-25) ,第 52 期
[9] 梁雅芬、朱麗鈴、王麗萍編譯,(2003),攝護腺癌(衛教手冊之十八),彰化基督教醫院。
[10] 黃建榮,(2004),使用支援向量機分類變異特徵之影像查詢,朝陽科技大學資訊管理系碩士論文
[11] 衛生署民國93年死因統計結果摘要(2004)。取自
http://www.doh.gov.tw/statistic/index.htm
[12] Alpaydm, E. (2004). Introduction To Machine Learning. Combridge, MA:MIT Press.
[13] Chen, C. H. (2002). Generalized association plots:Information visualization via iteratively generated correlation matrices. Statistica Sinica 12, 7-29.
[14] Conover, W. J., (1999). Practical Nonparametric Statistics. (3rd ed.). New York:Wiley.
[15] Fung, E. T. and Enderwick, C. (2002). ProteinChip Clinical Proteomics: Computational Challenges and Solutions, Ciphergen Biosystems, Fremont, CA, USA Computational Proteomics Supplement 32:S34-S41
[16] Qu, Y., Adam, B. l., Thornquist, M., Potter, J. D., Thompson, M. L., Yasui, Y., Davis, J., Schellhammer, P., Cazares, L., Clements, M., Jr., Wright, G.L. and Feng, Z. (2003). Data Reduction Using a Discrete Wavelet Transform in Discriminant Analaysis of Very High Dimensionality Data. Biometrics 59, 143-151.
[17] Reddy, G. and Dalmasso E. A. (2003). SELDI ProteinChip Array Technology: Protein-Based Predictive Medicine and Drug Discovery Applications. Journal of Biomedicine and Biotechnology 4,237-241
[18] Sauve, A. C. and Speed, T. P. (2004). Normalization, Baseline Correction and Alignment of High-Throughput Mass Spectrometry Data. Proceedings Gensips 2004
[19] Wagner, M. , Naik, D. and Pothen, A. (2003). Protocols for Disease Classification from Mass Spectrometry Data. Proteomics 3,1692–1698
此全文未授權公開