1.一種基于分布漂移數據集的特征選擇方法,其特征在于,是一種過濾器特征選擇方
法,包括以下步驟:
步驟1,給定數據集D,特征候選集合F,需要選擇的特征數量N;
步驟2,計算特征候選集合F中每個特征的特征相關度分數FRS;其中,所述特征相關度
分數FRS是指特征與標簽之間的相關程度或重要程度;
步驟3,計算特征候選集合F中每個特征的特征漂移程度分數FSS;其中,所述特征漂移
程度分數FSS是指特征分布隨時間變化的程度或者特征標簽組合隨著時間變化的程度;
步驟4,計算特征候選集合F中每個特征的特征泛化能力有效性分數FGES;其中,所述特
征泛化能力有效性分數FGES為一種特征評價指標,FGES=g(FRS,FSS),其中g為FRS的非減
函數,且為FSS的非增函數;其計算綜合了所述特征相關度分數FRS和所述特征漂移程度分
數FSS;
步驟5,將特征候選集合F的所有特征根據特征泛化能力有效性分數從大到小排序,得
到特征排序列表;
步驟6,根據步驟5的特征排序列表,選出特征排序列表的前N個特征,作為最終的特征
排序列表。
2.一種基于分布漂移數據集的特征選擇方法,其特征在于,是一種包裝器特征選擇方
法,包括以下步驟:
步驟1,給定機器學習模型M,給定數據集D、特征候選集合F,需要初選的特征數量N;
步驟2,計算特征候選集合F中每個特征的特征相關度分數FRS;其中,所述特征相關度
分數FRS是指特征與標簽之間的相關程度或重要程度;
步驟3,計算特征候選集合F中每個特征的特征漂移程度分數FSS;其中,所述特征漂移
程度分數FSS是指特征分布隨時間變化的程度或者特征標簽組合隨著時間變化的程度;
步驟4,計算特征候選集合F中每個特征的特征泛化能力有效性分數FGES;其中,所述特
征泛化能力有效性分數FGES為一種特征評價指標,FGES=g(FRS,FSS),其中g為FRS的非減
函數,且為FSS的非增函數;其計算綜合了所述特征相關度分數FRS和所述特征漂移程度分
數FSS;
步驟5,將特征候選集合F的所有特征根據特征泛化能力有效性分數從大到小排序,得
到特征排序列表;
步驟6,根據步驟5的特征排序列表,選出特征排序列表的前N個特征,作為初選特征排
序列表;
步驟7,根據步驟6產生的初選特征排序列表,從前往后依次加入每個特征,依次形成N
個特征子集,對每個特征子集訓練機器學習模型M的評估效果;
步驟8,當機器學習模型M的效果達到要求或者N個特征都完成循環后,選出表現最好的
機器學習模型M對應的特征子集。
3.根據權利要求1或2所述的一種基于分布漂移數據集的特征選擇方法,其特征在于,
所述特征相關度分數FRS的計算方法為:互信息方法,具體方法為:根據數據集D計算特征候
選集合F中的每個特征的特征與標簽的互信息,采用特征與標簽的互信息作為每個特征的
特征相關度分數FRS。
4.根據權利要求1或2所述的一種基于分布漂移數據集的特征選擇方法,其特征在于,
所述特征相關度分數FRS的計算方法為:分類指標方法,具體方法為:根據數據集D,通過包
裝器算法計算得出特征候選集合F中的每個特征的AUC指標或分類錯誤率,采用AUC指標或
分類錯誤率作為每個特征的特征相關度分數FRS。
5.根據權利要求1或2所述的一種基于分布漂移數據集的特征選擇方法,其特征在于,
所述特征漂移程度分數FSS通過以下方法計算:特征分布KL距離方法,具體方法為:從數據
集D中取出不重疊時間范圍的兩個子集D1和D2,對應的某特征f的分布分別為s1和s2,則FSS
(f)=KL(s1,s2)。
6.根據權利要求1或2所述的一種基于分布漂移數據集的特征選擇方法,其特征在于,
所述特征漂移程度分數FSS通過以下方法計算:特征標簽聯合分布KL距離方法,具體方法
為:從數據集D中取出不重疊時間范圍的兩個子集D1和D2,D1和D2中的正例中特征f的分布
分別為ps1,ps2,負例中特征f的分布分別為ns1,ns2,根據需要設定正、負例加權系數分別
為pw和nw,則FSS=pw*KL(ps1,ps2)+nw*KL(ns1,ns2),取pw=nw=0.5。
7.根據權利要求1或2所述的一種基于分布漂移數據集的特征選擇方法,其特征在于,
所述特征漂移程度分數FSS通過以下方法計算:特征統計量變化率方法,具體方法為:從數
據集D中取出不重疊時間范圍的兩個子集D1和D2,分別計算這兩個數據子集的某特征f的均
值和方差,均值分別為v1、v2,方差分別為u1、u2,則FSS(f)=w1*abs(v2-v1)/abs(v1)+w2*
abs(u2-u1)/abs(u1),其中,abs表示絕對值,abs(v2-v1)/abs(v1)為均值的相對變化率,
abs(u2-u1)/abs(u1)為方差的相對變化率,w1和w2分別為均值和方差的加權系數,取w1=
w2=0.5。
8.根據權利要求1或2所述的一種基于分布漂移數據集的特征選擇方法,其特征在于,
所述特征漂移程度分數FSS通過以下方法計算:特征標簽統計量變化率方法,具體方法為:
從數據集D中取出不重疊時間范圍的兩個子集D1和D2,D1和D2中正例中某特征f的均值分別
為pv1、pv2,方差分別為pu1、pu2,負例的均值分別為nv1、nv2,方差分別為nu1、nu2,則FSS
(f)=pw*(vw*abs(pv2-pv1)/abs(pv1)+uw*abs(pu2-pu1)/abs(pu1))+nw*abs(vw*abs
(nv2-nv1)/abs(nv1)+uw*abs(nu2-nu1)/abs(nu1)),其中,abs表示絕對值,pw和nw分別為
正、負例的加權系數,vw和uw分別為均值和方差的加權系數,取pw=nw=0.5,vw=uw=0.5。
9.根據權利要求1或2所述的一種基于分布漂移數據集的特征選擇方法,其特征在于,
所述特征泛化能力有效性分數FGES的計算公式為:FGES=FRS/FSS。
10.根據權利要求1或2所述的一種基于分布漂移數據集的特征選擇方法,其特征在于,
所述特征泛化能力有效性分數FGES的計算公式為:FGES=log(FRS)/log(FSS)。
11.根據權利要求1或2所述的一種基于分布漂移數據集的特征選擇方法,其特征在于,
所述特征泛化能力有效性分數FGES的計算公式為:FGES=(1/rank(FRS))*(1/rrank
(FSS));其中,rank為特征在特征候選集合F中根據某一指標按順序排序的序號;rrank為特
征在特征候選集合F中根據某一指標按逆序排序的序號,序號從1開始。
展開