網(wǎng)站介紹 關(guān)于我們 聯(lián)系方式 友情鏈接 廣告業(yè)務(wù) 幫助信息
1998-2022 ChinaKaoyan.com Network Studio. All Rights Reserved. 滬ICP備12018245號
《數(shù)據(jù)挖掘綜合》考試大綱
第一部分:考試內(nèi)容及要求
一.數(shù)據(jù)挖掘概述
考試內(nèi)容
數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘的主要問題
考試要求
1.了解數(shù)據(jù)庫系統(tǒng)技術(shù)的演變過程;理解數(shù)據(jù)挖掘的概念;掌握知識發(fā)現(xiàn)過程的7個步驟。
2.掌握數(shù)據(jù)挖掘要解決的問題;掌握數(shù)據(jù)挖掘功能和模式;理解數(shù)據(jù)挖掘與統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)的聯(lián)系和區(qū)別;了解數(shù)據(jù)挖掘的起源;掌握數(shù)據(jù)挖掘的任務(wù)。
二.數(shù)據(jù)
考試內(nèi)容
數(shù)據(jù)類型數(shù)據(jù)質(zhì)量數(shù)據(jù)預(yù)處理 相似性和相異性度量
考試要求
1.了解數(shù)據(jù)對象與屬性類型。
2.了解進(jìn)行數(shù)據(jù)預(yù)處理的原因及其重要性;了解數(shù)據(jù)質(zhì)量涉及的因素;掌握數(shù)據(jù)預(yù)處理的主要步驟。
3.了解數(shù)據(jù)清理的概念;了解處理數(shù)據(jù)缺失值的方法;了解處理噪音數(shù)據(jù)的方法。
4.理解數(shù)據(jù)預(yù)處理中的聚集、抽樣、特征子集選擇以及離散化和二元化等方法。
5.理解數(shù)據(jù)對象之間相似度;數(shù)據(jù)對象之間的相異度。
三. 分類和預(yù)測
考試內(nèi)容
數(shù)據(jù)分類和預(yù)測的概念判定樹歸類算法信息增益樹剪枝回歸分析分類法的準(zhǔn)確性組合分類器類不平衡問題
考試要求
1.理解數(shù)據(jù)分類的概念;了解分類的兩個過程;理解監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別;了解分類和預(yù)測的數(shù)據(jù)預(yù)處理方法;掌握評估分類和預(yù)測方法的標(biāo)準(zhǔn)。
2.了解決策樹的概念和優(yōu)缺點;了解決策樹歸分類的主要步驟;了解常用的屬性選擇度量,掌握信息增益度量的求法;理解兩種常用的樹剪枝方法。
3.掌握神經(jīng)網(wǎng)絡(luò)的分類與構(gòu)造原理
4.熟練掌握單層感知機(jī)原理與學(xué)習(xí)算法
5.掌握BP算法原理與學(xué)習(xí)過程
6.了解評估分類器性能的度量;了解評估分類和預(yù)測準(zhǔn)確率的方法(混淆矩陣、靈敏度和特小型、F度量)。
7.掌握Boosting算法的基本思想。
8.熟練掌握支持向量機(jī)SVM分類建模原理和計算方法。
9.了解組合分類器的概念和常用的組合分類方法;了解裝袋和提升的基本思想以及兩者的區(qū)別;了解隨機(jī)森林的基本思想。
10.了解類不平衡問題的概念;了解提高類不平衡數(shù)據(jù)分類準(zhǔn)確率的一般方法。
四. 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性
考試內(nèi)容
頻繁項集概念 頻繁項集挖掘方法 Apriori算法 FP-growth算法
考試要求
1.理解項集、閉項集、頻繁項集和關(guān)聯(lián)規(guī)則的概念 ;了解規(guī)則興趣度的兩種度量(支持度和置信度)。
2.了解關(guān)聯(lián)規(guī)則挖掘的步驟。
3.了解Apriori算法的步驟;了解FP-growth算法的步驟和優(yōu)缺點;掌握相關(guān)性度量提升度(lift)的計算方法。
五. 聚類分析
考試內(nèi)容
聚類分析的概念聚類方法的分類算法方法的距離度量劃分方法層次方法基于密度的方法基于網(wǎng)格的方法聚類評估
考試要求
1.理解聚類分析的概念;了解聚類分析的應(yīng)用領(lǐng)域;了解比較聚類方法的標(biāo)準(zhǔn);了解數(shù)據(jù)挖掘?qū)垲惖牡湫鸵?了解比較聚類方法的各個方面。
2.理解劃分方法的概念和一般特點,以及典型算法;理解層次方法的概念和一般特點,以及典型算法;理解基于密度的聚類方法的概念和一般特點,以及典型算法;理解基于網(wǎng)格的聚類方法的概念和一般特點,以及典型算法;
3.理解K-均值算法的步驟和優(yōu)缺點;
4.了解算法方法的距離度量。
5.了解聚類評估概念和主要任務(wù);了解測定聚類質(zhì)量的方法。
第二部分:考試方法和考試時間
數(shù)據(jù)挖掘?qū)д摽荚嚥捎瞄]卷、筆試形式,考試時間為180分鐘。
第三部分:試卷結(jié)構(gòu)及參考書目
(一)題分:試卷滿分為150分
(二)題型比例:
選擇題與判斷題 約30%
簡答題和計算題 約70%
(三)參考書目:
《數(shù)據(jù)挖掘?qū)д摗罚?美)陳封能,(美)斯坦巴赫,(美)庫瑪爾,人民郵電出版社,2011年。
來源未注明“中國考研網(wǎng)”的資訊、文章等均為轉(zhuǎn)載,本網(wǎng)站轉(zhuǎn)載出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其內(nèi)容的真實性,如涉及版權(quán)問題,請聯(lián)系本站管理員予以更改或刪除。如其他媒體、網(wǎng)站或個人從本網(wǎng)站下載使用,必須保留本網(wǎng)站注明的"稿件來源",并自負(fù)版權(quán)等法律責(zé)任。
來源注明“中國考研網(wǎng)”的文章,若需轉(zhuǎn)載請聯(lián)系管理員獲得相應(yīng)許可。
聯(lián)系方式:chinakaoyankefu@163.com
掃碼關(guān)注
了解考研最新消息
網(wǎng)站介紹 關(guān)于我們 聯(lián)系方式 友情鏈接 廣告業(yè)務(wù) 幫助信息
1998-2022 ChinaKaoyan.com Network Studio. All Rights Reserved. 滬ICP備12018245號