1.一種基于雙向迭代和自動構(gòu)建更新語料庫的垃圾評論過濾方法,其特征在于,包括
如下步驟:
(1)獲取產(chǎn)品的評論文本以構(gòu)建語料庫,并對語料庫進(jìn)行初始劃分形成垃圾評論文本
集和正常評論文本集;
(2)利用貝葉斯過濾器對所述垃圾評論文本集和正常評論文本集中的評論文本進(jìn)行垃
圾評論判別,并根據(jù)垃圾評論判別結(jié)果更新垃圾評論文本集和正常評論文本集;
所述步驟(2)中對正常評論文本集和垃圾評論文本集中每一條評論文本進(jìn)行垃圾評論
判別時進(jìn)行如下操作:
分別計算該評論文本屬于正常評論文本集和垃圾評論文本集的類后驗概率:
若屬于垃圾評論文本集的類后驗概率大于或等于屬于正常評論文本集的類后驗概率,
則判定該評論文本為垃圾評論文本;
否則,判定為正常評論文本;
通過如下步驟分別計算該評論文本屬于正常評論文本集和垃圾評論文本集的類后驗
概率:
(2-1)對垃圾評論文本集進(jìn)行垃圾評論關(guān)鍵詞抽取,形成垃圾評論關(guān)鍵詞詞集;
所述步驟(2-1)具體包括如下步驟:
(2-21)根據(jù)垃圾評論文本集中所有評論文本構(gòu)建相應(yīng)的實詞詞集;
(2-22)計算垃圾評論文本集與正常評論文本集的類先驗概率,并根據(jù)計算結(jié)果采用信
息增益方法計算實詞詞集中各個實詞的權(quán)值,并提取權(quán)值大于預(yù)設(shè)閾值的實詞作為垃圾評
論關(guān)鍵詞形成垃圾評論關(guān)鍵詞詞集;
所述步驟(2-22)中根據(jù)如下公式計算實詞詞集中第i個實詞w
i的權(quán)值η(w
i):
η ( w i ) = Σ j ∈ { 0 , 1 } , o ∈ { 0 , 1 } P ( C j , w i o ) log P ( C j , w i o ) P ( C j ) P ( w i o ) , ]]>
![]()
其中,1≤i≤n
word,n
word表示實詞詞集中實詞的總個數(shù);
j=0或1,當(dāng)j=0時,評論文本集C
j表示垃圾評論文本集,當(dāng)j=1時,評論文本集C
j表示
正常評論文本集;
o=0或1,且:
當(dāng)o=0時,
![]()
表示實詞w
i不出現(xiàn),
![]()
表示評論文本集C
j中不出現(xiàn)實詞w
i的評論文
本條數(shù)與語料庫中評論文本條數(shù)的比值,
![]()
表示語料庫中不出現(xiàn)實詞w
i的評論文本的
條數(shù)與語料庫中評論文本條數(shù)的比值,
當(dāng)o=1時,
![]()
表示實詞w
i出現(xiàn),
![]()
表示評論文本集C
j中出現(xiàn)實詞w
i的評論文本條
數(shù)與語料庫中評論文本條數(shù)的比值,
![]()
表示語料庫中出現(xiàn)實詞w
i的評論文本的條數(shù)與
語料庫中評論文本條數(shù)的比值;
P(C
j)表示評論文本集C
j的類先驗概率,根據(jù)如下公式計算:
P ( C j ) = 1 + | D C j | 2 + | D C | , ]]>
![]()
其中,
![]()
表示評論文本集C
j中評論文本的條數(shù),|D
C|表示語料庫中評論文本的條數(shù);
(2-2)根據(jù)垃圾評論關(guān)鍵詞詞集抽取該評論文本的特征詞,并生成相應(yīng)的特征詞序列;
(2-3)利用相應(yīng)的特征詞序列分別計算該評論文本屬于垃圾評論文本集和正常評論文
本集的類后驗概率;
所述步驟(2-3)中針對當(dāng)前評論文本d
x進(jìn)行如下操作:
(2-31)利用相應(yīng)的特征詞序列根據(jù)如下公式分別計算當(dāng)前評論文本d
x屬于正常評論文
本集和垃圾評論文本集的類條件概率P(d
x|C
j):
P ( d x | C j ) = Π n = 1 N P ( w n | C j ) , ]]>
![]()
其中,j=0或1,當(dāng)j=0時,評論文本集C
j表示垃圾評論文本集,當(dāng)j=1時,評論文本集C
j表示正常評論文本集,
n=1,2……,N,N為特征詞序列中特征詞的個數(shù),
P(w
n|C
j)表示為相應(yīng)的特征詞序列中關(guān)鍵詞w
n在垃圾評論文本集中的類條件概率,根
據(jù)如下公式計算:
P ( w n | C j ) = 1 + w n j 2 + | D C j | , ]]>
![]()
其中,
![]()
表示評論文本集C
j中出現(xiàn)關(guān)鍵詞w
n的評論文本條數(shù),
![]()
表示評論文本集C
j中評論文本的條數(shù);
(2-32)根據(jù)如下公式分別計算當(dāng)前評論文本d
x屬于垃圾評論文本集和正常評論文本集
的類后驗概率:
P ( C j | d x ) = P ( C j ) × P ( d x | C j ) P ( d x ) , ]]>
![]()
其中,P(C
j|d
x)表示當(dāng)前評論文本d
x屬于評論文本集C
j的類后驗概率,
P(d
x)為評論文本d
x的全概率,
P(C
j)為評論文本集C
j的類先驗概率:
P ( C j ) = 1 + | D C j | 2 + | D C | , ]]>
![]()
其中,
![]()
表示評論文本集C
j中評論文本的條數(shù),|D
C|表示語料庫中評論文本的條數(shù);
(3)迭代執(zhí)行步驟(2),直至相鄰兩次迭代得到的垃圾評論文本集和正常評論文本集不
再變化為止,并判定最后一次迭代得到的垃圾評論文本集中的評論文本為垃圾評論文本。
2.如權(quán)利要求1所述的基于雙向迭代和自動構(gòu)建更新語料庫的垃圾評論過濾方法,其
特征在于,所述步驟(1)中利用正則表達(dá)式對語料庫中的評論文本進(jìn)行垃圾評論判別以完
成初始劃分。
3.如權(quán)利要求1所述的基于雙向迭代和自動構(gòu)建更新語料庫的垃圾評論過濾方法,其
特征在于,所述步驟(2-22)中預(yù)設(shè)閾值為0.04~0.05。