大家在寫(xiě)論文時(shí)可能經(jīng)常會(huì)遇到大數(shù)據(jù)樣本中異常數(shù)據(jù)批量剔除的問(wèn)題,本文在于向大家推薦在Stata中運(yùn)用winsorize方法,來(lái)對(duì)數(shù)據(jù)進(jìn)行處理(縮尾使數(shù)據(jù)平滑,或直接刪除),經(jīng)試驗(yàn)有效,希望有所幫助。
Stata(網(wǎng)上有面安裝款,解壓能直接運(yùn)行),實(shí)驗(yàn)數(shù)據(jù)文章源自四五設(shè)計(jì)網(wǎng)-http://www.133122.cn/34677.html
打開(kāi)stata,在命令行輸入ssc install winsor2, replace,自動(dòng)安裝 winsor2文章源自四五設(shè)計(jì)網(wǎng)-http://www.133122.cn/34677.html
文章源自四五設(shè)計(jì)網(wǎng)-http://www.133122.cn/34677.html
準(zhǔn)備數(shù)據(jù)(注意輸入格式)文章源自四五設(shè)計(jì)網(wǎng)-http://www.133122.cn/34677.html
文章源自四五設(shè)計(jì)網(wǎng)-http://www.133122.cn/34677.html
導(dǎo)入數(shù)據(jù)File-Inport文章源自四五設(shè)計(jì)網(wǎng)-http://www.133122.cn/34677.html
文章源自四五設(shè)計(jì)網(wǎng)-http://www.133122.cn/34677.html
輸入命令winsor2 變量名 變量名, replace cuts(1 99),此條命令是先找到各個(gè)變量的1%,99%所對(duì)應(yīng)的分位數(shù),比如對(duì)于變量ac1,其分位數(shù)分別為a、b,那么將數(shù)據(jù)中小于a的數(shù)替換成a,將大于b的數(shù)替換成b,原始數(shù)據(jù)直接變?yōu)樾聰?shù)據(jù),這樣就是縮尾,使數(shù)據(jù)平滑(口徑為1%)。若輸入命令winsor2 變量名 變量名, replace cuts(1 99) trim,則不替換,將小于a和大于b的直接刪除文章源自四五設(shè)計(jì)網(wǎng)-http://www.133122.cn/34677.html
文章源自四五設(shè)計(jì)網(wǎng)-http://www.133122.cn/34677.html
最后一張圖顯示的是命令winsor2 ac1 ac2, replace cuts(1 99) trim命令的執(zhí)行結(jié)果,大家看到數(shù)據(jù)表中的“.”,即是刪除完異常值后的結(jié)果,批量處理后可以File-Export將數(shù)據(jù)導(dǎo)出,在Excel上排序后即可將其刪除(或在STATA上用其他命令也可)文章源自四五設(shè)計(jì)網(wǎng)-http://www.133122.cn/34677.html




評(píng)論