福利一区二区三区视频在线观看-福利一区三区-福利一区视频-福利在线网址-妇女激情毛片-干干干操操操

您現(xiàn)在的位置： 首頁 > 技術(shù)轉(zhuǎn)讓 > 基于雙向迭代和自動構(gòu)建更新語料庫的垃圾評論過濾方法

基于雙向迭代和自動構(gòu)建更新語料庫的垃圾評論過濾方法

專利類型：發(fā)明專利
有效期：不限
發(fā)布日期：2022-09-10
技術(shù)成熟度：通過小試

交易價格： ￥面議

法律狀態(tài)核實
簽署交易協(xié)議
代辦官方過戶
交易成功

專利推薦

■ 一種薏苡仁多種活性成分的提取分離方法

■ 海蘆筍降三萜皂苷化合物及其制備方法和用途

■ 一種適用于有機農(nóng)業(yè)的藥肥及其制備工藝

■ 樟芝子實體三萜類組合物、制備與分析方法

■ 從胡蘆巴中分離制備黃酮苷和二苯乙烯苷類化合物的方法

■ 一種同時測定固體保健食品中非法添加的多種化學(xué)藥物的方法

■ 一種霉豆渣的加工工藝

■ 一種火麻油脂加工工藝

■ 一種曝氣聯(lián)合氣相抽提二維試驗裝置

■ 弧光傳感器及弧光探測的方法

■ 一種由鹵水提取電池級鋰的工藝及裝置

專利技術(shù)詳情
專利技術(shù)附圖
服務(wù)流程
過戶資料

技術(shù)(專利)類型 發(fā)明專利
申請?zhí)?專利號 CN201510417206.9
技術(shù)(專利)名稱 基于雙向迭代和自動構(gòu)建更新語料庫的垃圾評論過濾方法
項目單位 浙江理工大學(xué)
發(fā)明人 張宇,劉妙
行業(yè)類別
技術(shù)成熟度 通過小試
交易價格 ￥面議
聯(lián)系人 趙鵬博
發(fā)布時間 2022-09-10

01

項目簡介

本發(fā)明公開了一種基于雙向迭代和自動構(gòu)建更新語料庫的垃圾評論過濾方法，包括：獲取產(chǎn)品的評論文本以構(gòu)建語料庫，并對語料庫進(jìn)行初始劃分形成垃圾評論文本集和正常評論文本集；利用貝葉斯過濾器對正常評論文本集和垃圾評論文本集中的評論文本進(jìn)行垃圾評論判別，并更新垃圾評論文本集和正常評論文本集；利用貝葉斯過濾器迭代地進(jìn)行垃圾評論判別，直至相鄰兩次迭代得到的結(jié)果不再變化為止，并判定最后一次迭代得到的垃圾評論文本集中的評論文本為垃圾評論文本。本發(fā)明的垃圾評論過濾方法迭代地利用貝葉斯過濾器進(jìn)行垃圾評論判別，能夠自動識別出新的垃圾評論文本，實現(xiàn)垃圾評論文本集和正常評論文本集的自動更新，從而獲得更加準(zhǔn)確的判別結(jié)果。
展開
02

說明書

1.一種基于雙向迭代和自動構(gòu)建更新語料庫的垃圾評論過濾方法，其特征在于，包括
如下步驟：
(1)獲取產(chǎn)品的評論文本以構(gòu)建語料庫，并對語料庫進(jìn)行初始劃分形成垃圾評論文本
集和正常評論文本集；
(2)利用貝葉斯過濾器對所述垃圾評論文本集和正常評論文本集中的評論文本進(jìn)行垃
圾評論判別，并根據(jù)垃圾評論判別結(jié)果更新垃圾評論文本集和正常評論文本集；
所述步驟(2)中對正常評論文本集和垃圾評論文本集中每一條評論文本進(jìn)行垃圾評論
判別時進(jìn)行如下操作：
分別計算該評論文本屬于正常評論文本集和垃圾評論文本集的類后驗概率：
若屬于垃圾評論文本集的類后驗概率大于或等于屬于正常評論文本集的類后驗概率，
則判定該評論文本為垃圾評論文本；
否則，判定為正常評論文本；
通過如下步驟分別計算該評論文本屬于正常評論文本集和垃圾評論文本集的類后驗
概率：
(2-1)對垃圾評論文本集進(jìn)行垃圾評論關(guān)鍵詞抽取，形成垃圾評論關(guān)鍵詞詞集；
所述步驟(2-1)具體包括如下步驟：
(2-21)根據(jù)垃圾評論文本集中所有評論文本構(gòu)建相應(yīng)的實詞詞集；
(2-22)計算垃圾評論文本集與正常評論文本集的類先驗概率，并根據(jù)計算結(jié)果采用信
息增益方法計算實詞詞集中各個實詞的權(quán)值，并提取權(quán)值大于預(yù)設(shè)閾值的實詞作為垃圾評
論關(guān)鍵詞形成垃圾評論關(guān)鍵詞詞集；
所述步驟(2-22)中根據(jù)如下公式計算實詞詞集中第i個實詞w_i的權(quán)值η(w_i)：
η ( w i ) = Σ j &Element; { 0 , 1 } , o &Element; { 0 , 1 } P ( C j , w i o ) log P ( C j , w i o ) P ( C j ) P ( w i o ) , ]]>其中，1≤i≤n_word，n_word表示實詞詞集中實詞的總個數(shù)；
j＝0或1，當(dāng)j＝0時，評論文本集C_j表示垃圾評論文本集，當(dāng)j＝1時，評論文本集C_j表示
正常評論文本集；
o＝0或1，且：
當(dāng)o＝0時，表示實詞w_i不出現(xiàn)，表示評論文本集C_j中不出現(xiàn)實詞w_i的評論文
本條數(shù)與語料庫中評論文本條數(shù)的比值，表示語料庫中不出現(xiàn)實詞w_i的評論文本的
條數(shù)與語料庫中評論文本條數(shù)的比值，
當(dāng)o＝1時，表示實詞w_i出現(xiàn)，表示評論文本集C_j中出現(xiàn)實詞w_i的評論文本條
數(shù)與語料庫中評論文本條數(shù)的比值，表示語料庫中出現(xiàn)實詞w_i的評論文本的條數(shù)與
語料庫中評論文本條數(shù)的比值；
P(C_j)表示評論文本集C_j的類先驗概率，根據(jù)如下公式計算：
P ( C j ) = 1 + | D C j | 2 + | D C | , ]]>其中，表示評論文本集C_j中評論文本的條數(shù)，|D_C|表示語料庫中評論文本的條數(shù)；
(2-2)根據(jù)垃圾評論關(guān)鍵詞詞集抽取該評論文本的特征詞，并生成相應(yīng)的特征詞序列；
(2-3)利用相應(yīng)的特征詞序列分別計算該評論文本屬于垃圾評論文本集和正常評論文
本集的類后驗概率；
所述步驟(2-3)中針對當(dāng)前評論文本d_x進(jìn)行如下操作：
(2-31)利用相應(yīng)的特征詞序列根據(jù)如下公式分別計算當(dāng)前評論文本d_x屬于正常評論文
本集和垃圾評論文本集的類條件概率P(d_x|C_j)：
P ( d x | C j ) = Π n = 1 N P ( w n | C j ) , ]]>其中，j＝0或1，當(dāng)j＝0時，評論文本集C_j表示垃圾評論文本集，當(dāng)j＝1時，評論文本集C_j
表示正常評論文本集，
n＝1,2……,N，N為特征詞序列中特征詞的個數(shù)，
P(w_n|C_j)表示為相應(yīng)的特征詞序列中關(guān)鍵詞w_n在垃圾評論文本集中的類條件概率，根
據(jù)如下公式計算：
P ( w n | C j ) = 1 + w n j 2 + | D C j | , ]]>其中，表示評論文本集C_j中出現(xiàn)關(guān)鍵詞w_n的評論文本條數(shù)，
表示評論文本集C_j中評論文本的條數(shù)；
(2-32)根據(jù)如下公式分別計算當(dāng)前評論文本d_x屬于垃圾評論文本集和正常評論文本集
的類后驗概率：
P ( C j | d x ) = P ( C j ) × P ( d x | C j ) P ( d x ) , ]]>其中，P(C_j|d_x)表示當(dāng)前評論文本d_x屬于評論文本集C_j的類后驗概率，
P(d_x)為評論文本d_x的全概率，
P(C_j)為評論文本集C_j的類先驗概率：
P ( C j ) = 1 + | D C j | 2 + | D C | , ]]>其中，表示評論文本集C_j中評論文本的條數(shù)，|D_C|表示語料庫中評論文本的條數(shù)；
(3)迭代執(zhí)行步驟(2)，直至相鄰兩次迭代得到的垃圾評論文本集和正常評論文本集不
再變化為止，并判定最后一次迭代得到的垃圾評論文本集中的評論文本為垃圾評論文本。
2.如權(quán)利要求1所述的基于雙向迭代和自動構(gòu)建更新語料庫的垃圾評論過濾方法，其
特征在于，所述步驟(1)中利用正則表達(dá)式對語料庫中的評論文本進(jìn)行垃圾評論判別以完
成初始劃分。
3.如權(quán)利要求1所述的基于雙向迭代和自動構(gòu)建更新語料庫的垃圾評論過濾方法，其
特征在于，所述步驟(2-22)中預(yù)設(shè)閾值為0.04～0.05。

展開

專利技術(shù)附圖

服務(wù)流程

過戶資料

買賣雙方需提供資料
平臺提供
過戶后您將獲得

買家
賣家

公司
企業(yè)營業(yè)執(zhí)照
企業(yè)營業(yè)執(zhí)照

專利注冊證原件

個人
身份證

個體戶營業(yè)執(zhí)照
身份證

專利注冊證原件

專利代理委托書

轉(zhuǎn)讓申請書

轉(zhuǎn)讓協(xié)議

手續(xù)合格通知書

專利證書

專利利登記簿副本

安全保障

品類齊全

海量資源庫，平臺整合幾十萬閑置資源。
交易保障

完善的資金保障體系確保買賣雙方資金安全。
專人跟進(jìn)

專業(yè)交易顧問全程服跟進(jìn),確保交易流暢。
快速響應(yīng)

專業(yè)在線/電話客服服務(wù)，快速響應(yīng)貼心服務(wù)。
售后無憂

資質(zhì)過硬,國內(nèi)大知識產(chǎn)權(quán)服務(wù)平臺。

-我要咨詢-

專利類型：

專利號：

聯(lián)系人：

專利名稱： *

聯(lián)系電話： *

驗證碼：

報價：

摘要：

提交

關(guān)于我們 | 聯(lián)系我們

傳真：0435-3213171 電話：18801213919 郵箱：[email protected] 地址：吉林省通化市東昌區(qū)新華大街1003號（通化市科技成果轉(zhuǎn)化中心）

舉報電話：0435-5112631 舉報郵箱：[email protected]

備案號ICP備18003140號-1

福利一区二区三区视频在线观看-福利一区三区-福利一区视频-福利在线网址-妇女激情毛片-干干干操操操

基于雙向迭代和自動構(gòu)建更新語料庫的垃圾評論過濾方法

專利推薦

01

02

專利技術(shù)附圖

服務(wù)流程

過戶資料

安全保障

品類齊全

交易保障

專人跟進(jìn)

快速響應(yīng)

售后無憂