向量空間數字模型(VectorSpaceModel):對文檔進行簡單說明,在忽略特征項正中間的基本資料后,一個文本就可以用一個特征空間向量來說明,也就是特征項室內空間設計中的一個點;而一個文本集可以描述成一個引流方法引流矩陣,也就是特征項室內空間設計中的一些點的融合。
?相似度(Similarity):相似度Sim(D1,D2)用于考量2個文檔D1和D2正中間的具體內容相關水準。當文檔被描述為文檔室內空間設計的空間向量,就可以利用歐式距離,內積間隔或余弦距離等空間向量相互之間的間隔計算方式來說明文檔間的相似度。
在這其中特征挑選是文本說明的關鍵,方式包括:文檔頻率法(DF),風琴包生產廠家信息增益法和互信息法這種。
在做特征挑選之前,一般還必須進行數據預處理的工作上,要對先往網頁頁面網頁頁面隔音降噪。除此之外辦公桌收納在實際的分類中,除了利用文檔的內容特征之外,很有可能還會繼續堅持應用實際使用中所特有的特征,比如在網頁頁面網頁頁面分類中,很有可能使用url的特征,html的結構特征和標志特征等信息。分類的關鍵全過程是這般的:定義分類體系管理,將事前分類過的文檔作為訓練集,文具批發從訓練集中獲得分類數字模型。目前分類蟻群算法重要分下面這類:
在這其中比較普遍的是:svm算法(SVM)方式,質樸貝葉斯(NB)方式,神經元網絡(NN)方式,K相鄰(KNN)方式,決策樹算法(DecisionTree)方式等。