統(tǒng)計方面博士論文
統(tǒng)計學是一個前景非常明朗的產業(yè),各行各業(yè)都在應用統(tǒng)計學的技術。統(tǒng)計學的發(fā)展迅速,其發(fā)展方向也是令人關心的一個課題。下文是學習啦小編為大家搜集整理的關于統(tǒng)計方面博士論文的內容,歡迎大家閱讀參考!
統(tǒng)計方面博士論文篇1
淺談統(tǒng)計調查及統(tǒng)計調查誤差的及特征
種類
摘 要:隨著社會的發(fā)展,統(tǒng)計調查作為各信息的來源勢必會越來越受到人們更多地關注,也勢必會有越來越多的人參與到統(tǒng)計調查活動中來。本文從統(tǒng)計調查的概念出發(fā),通過對統(tǒng)計調查和其它調查的區(qū)別解釋統(tǒng)計調查,并正確區(qū)分統(tǒng)計調查與非統(tǒng)計調查、理解統(tǒng)計調查的種類、統(tǒng)計調查誤差的種類及其特征和產生的原因,這些問題是參與和搞好統(tǒng)計調查、提高統(tǒng)計調查質量的基本前提。
關鍵詞:統(tǒng)計調查;誤差;統(tǒng)計調查質量
一、統(tǒng)計調查的概念
統(tǒng)計調查不僅要有明確的調查對象,而且調查對象是由具有某一或某些共同特征的許多個體構成的總體,同時構成總體的個體數要足夠地多,除此之外,還要求調查的個體單位數也要足夠地多。統(tǒng)計調查對構成總體的許多獨立個體的調查不是目的,綜合與提煉許多獨立個體信息資料才是統(tǒng)計調查的真正目的。因此,統(tǒng)計調查所獲資料的真實、準確與否,直接取決于個體提供的信息資料是否真實、準確。而統(tǒng)計個體之所以有可能提供不真實、不準確的個體信息資料,是因為統(tǒng)計個體擔心一旦提供了個體真實、準確的信息資料可能會為自己、他人或相關部門帶來不必要的麻煩。不過,從統(tǒng)計調查的真實目的來看,統(tǒng)計個體的信息資料根本不是統(tǒng)計調查所關注的信息資料,個人信息資料只作為一種信息載體出現(xiàn),僅起到顯現(xiàn)總體一般屬性或數量特征的作用———從對個體信息資料進行深入的加工、綜合中提煉出總體的一般屬性或數量特征。
二、統(tǒng)計調查的種類
眾所周知,信息化時代信息的主體是統(tǒng)計信息,統(tǒng)計信息的獲取建立在統(tǒng)計調查的基礎之上。統(tǒng)計調查搜集到的個體信息資料的真實、準確與否將直接影響信息化時代信息的質量。統(tǒng)計調查獲取個體信息資料的方式方法的不同決定了不同種類的統(tǒng)計調查獲取個體信息資料質量的差異。
統(tǒng)計調查按是否對構成總體的全部個體進行調查,可以劃分為全面統(tǒng)計調查與非全面統(tǒng)計調查兩類。
全面統(tǒng)計調查指的是對構成總體的所有個體進行的調查,即要搜集總體中所有個體的個體信息資料的一種調查。再按對總體中個體信息資料收集方式的不同,全面統(tǒng)計調查又可以劃分為普查和全面統(tǒng)計報表兩種。普查通常通過調查員借助普查表直接向個體搜集其信息資料的一種調查方式。
非全面統(tǒng)計調查指僅從構成總體的全部個體中選取部分個體進行的調查。非全面調查又因從全部個體中所選部分個體的方式不同,分為抽樣調查和非抽樣調查。所謂抽樣調查指從構成總體的所有個體中按照隨機性原則選取部分個體的調查。同時,抽樣調查又根據隨機性原則在具體使用上的差異可以將抽樣調查劃分為簡單隨機抽樣、系統(tǒng)隨機抽樣、分層隨機抽樣、整群隨機抽樣以及多階段隨機抽樣等。另一方面,若從構成總體的所有個體單位中沒有遵循隨機性原則而選取部分個體單位進行調查,則這樣的統(tǒng)計調查稱之為非抽樣調查。生活中常用的非抽樣調查主要有重點調查、典型調查和滾雪球調查等。
因此,無論在抽樣調查的理論研究方面,還是在抽樣調查的實際應用中,抽樣調查正越來越受到人們的重視。
三、統(tǒng)計調查誤差的種類及特征
1、統(tǒng)計調查誤差的概念。通常人們把由統(tǒng)計調查獲取個體信息并綜合得到的總體規(guī)律性與總體實際客觀規(guī)律性之間的差異稱之為統(tǒng)計誤差。這種統(tǒng)計誤差反映在統(tǒng)計調查指標上,就是由調查個體所得總體指標數值與總體實際指標數值之間的差別。
2、登記性統(tǒng)計調查誤差、特征及其產生的原因。
統(tǒng)計誤差通??梢苑譃榈怯浶越y(tǒng)計誤差和代表性誤差兩大類。所謂登記性誤差就是指由于調查者或被調查者的主觀原因而導致調查所得總體指標與總體實際指標之間的差異。
登記性統(tǒng)計誤差具有如下兩大基本特征:一是登記性統(tǒng)計誤差從理論上而言是可以完全避免的,但是,在實際統(tǒng)計調查中,登記性統(tǒng)計誤差又不可避免。二是登記性統(tǒng)計誤差一旦產生,誤差的大小又不可以計量。
從理論上來說,只要被調查者提供了真實、準確的個體信息資料,而且調查者能準確記錄與整理分析這些個體信息資料,就可以避免登記性統(tǒng)計誤差的產生。事實上,統(tǒng)計總體中的個體可能會基于各種考慮或顧慮不愿提供真實、準確的個體信息資料。根源在于被調查者可能根本不理解統(tǒng)計調查的真實目的,或者把統(tǒng)計調查混同于非統(tǒng)計調查。在我國當前國民參與統(tǒng)計調查意識比較薄弱、基本統(tǒng)計常識比較缺乏以及保護統(tǒng)計個體信息資料的法律、法規(guī)還不健全的現(xiàn)實條件下,要避免這種登記性誤差幾乎是不可能的。
再者,即使調查總體中的個體主觀想提供真實、準確的個體信息資料,但是由于被調查的個體缺少必要的數據記錄,或沒有相關數據,或個人信息資料記憶有誤也可能無法提供真實、準確的個人信息資料。如在我國農村居民年收支情況的調查中,有些農村居民不是不想告訴你某年收支的準確數據,而是有些農村居民從來就沒有對自己的年收支核算過,也沒有詳細的收支記錄。
另一方面,即使被調查的個體提供了真實、準確的個體信息資料,也可能因調查者數據記錄不熟練、責任心不強造成記錄錯誤,或者發(fā)生數據丟失以及分析、整理個體信息資料有誤等,也會產生登記性統(tǒng)計誤差。
最后,不論何種原因一旦導致了登記性誤差的產生,登記性統(tǒng)計誤差的大小是無法準確計量的。這是因為被調查者提供的個體信息資料中不真實、不準確的程度有多大、調查記錄中有多少差錯、個體信息資料整理、分析中又有多大差錯等,在實際統(tǒng)計調查中均是不可測度的。
綜上所述,由于統(tǒng)計調查區(qū)別于非統(tǒng)計調查的特征之一就是要對構成總體的個體進行獨立地調查,因此不管是全面統(tǒng)計調查還是非全面統(tǒng)計調查、不管是抽樣調查還是非抽樣調查都會產生登記性統(tǒng)計調查誤差。
3、代表性統(tǒng)計誤差、特征及產生的原因。
所謂代表性統(tǒng)計誤差指僅對構成總體的所有個體中部分個體進行調查,且僅僅根據這部分個體提供的信息資料綜合提煉出關于這部分個體的一般數量特征(如部分個體的均值),并據此對總體實際均值做出判斷所產生的一種差異。
代表性統(tǒng)計誤差可以根據它是來自抽樣調查還是非抽樣調查區(qū)分為抽樣誤差(也稱隨機誤差)和系統(tǒng)性誤差兩類。由抽樣調查所產生的代表性誤差稱之為抽樣誤差,由非抽樣調查所產生的代表性誤差稱為系統(tǒng)性統(tǒng)計誤差。
抽樣誤差具有如下基本特征:從理論上來說抽樣誤差無法避免,但是,在實際抽樣調查中,抽樣誤差不僅可以采取一定手段加以防范和控制而且其大小也可以計算。一方面,代表性誤差產生的根源在于構成總體的所有個體的普遍規(guī)律性不可能由其中的部分個體完全顯現(xiàn),否則,它就違背了部分與整體的基本哲學關系。另一方面,抽樣調查從總體中選取部分個體時,盡管確保了每一個個體都有同等被選中的可能性,使得所選中的部分個體的構成與總體中所有個體的構成趨于一致,由此保證了選中的部分個體的數量特征能反映總體中所有個體的數量特征。然而,總體中的某個個體能否最終被選中又具有一定的隨機性,從而使得所選中的部分個體數量特征又不能完全反映總體中所有個體的數量特征。由此表明,抽樣誤差不可避免。
數理統(tǒng)計關于抽樣的原理已經表明:只要采用適當的方法對構成總體中的所有個體先做適當的編排或分組,然后再遵循隨機性原則抽選個體,就可以有效地降低抽樣誤差的大小。即在樣本容量一定的前提下,對同一現(xiàn)象總體分別采用分層隨機抽樣、系統(tǒng)隨機抽樣、整群隨機抽樣和簡單隨機抽樣,其抽樣誤差是有顯著差異的。另外,在其他條件相同的情況下,變重復抽樣為不重復抽樣也可以適當減小抽樣誤差。系統(tǒng)性代表誤差具有如下基本特征:從理論上來說系統(tǒng)性代表誤差是完全可以避免的,但是,系統(tǒng)性代表誤差一旦產生其大小又是不可計量的。系統(tǒng)性代表誤差產生的根源在于:在從構成總體的所有個體中選取部分個體時沒有遵循隨機性原則,而是主觀地、或部分主觀地從總體中選取個體作為調查單位。
因此,人們在實際統(tǒng)計調查中,如果能有意識地不受主觀因素的影響、自覺地遵循隨機性原則抽選部分個體,就可以避免系統(tǒng)性誤差的產生。
四、結語
隨著我國社會、經濟改革開放程度的不斷深入和社會主義市場經濟體系的不斷完善,社會各個階層及個人對信息的種類、數量和質量的需求也在不斷改變。統(tǒng)計調查作為各種信息的根本來源勢必會越來越受到人們更多地關注,也勢必會有越來越多的人參與到統(tǒng)計調查活動中來。通過分析不同調查現(xiàn)象總體的具體特征,根據統(tǒng)計調查的實際需要選擇適當的調查方式方法,分析各種統(tǒng)計調查誤差產生的可能原因,就可以有針對性地采取必要的手段防范某些統(tǒng)計調查誤差的產生,從而實現(xiàn)在調查成本不變的情況下,有效地提高統(tǒng)計調查的數據質量。
統(tǒng)計方面博士論文篇2
談統(tǒng)計方法在移動通信網絡優(yōu)化管理的應用
當前移動通信網絡優(yōu)化,各種運行質量評估體系并存,不同運營商,不同設備商的設備和不同地區(qū)都可能形成自己的考核評估體系。這些考核評估體系大多是基于設備商對各種移動通信網絡的統(tǒng)計,以及dt、cqt等場測數據綜合進行分析得出,能一定程度上反映移動通信網絡的運行性能與質量。但是隨著網絡運營管理向系統(tǒng)化、精細化發(fā)展,原有的評估體系在某些方面不能適應當前網絡優(yōu)化工作的需要,如:對于各地區(qū)kpi(關鍵質量指標)縱、橫向比較的標準。較低的指標使原有評估體系的局限性不斷顯現(xiàn)出來。要做到指標“與時俱進”的不斷提高,又要切合目前的網絡質量狀態(tài),達到最終的高指標、均衡化的目的,這就需要在指標門限制定的過程中運用統(tǒng)計學的若干方法。
聯(lián)合國的專門機構國際電信聯(lián)盟已為電信標準化部門制定了t標準。在文獻[1]中,明確定義了(qos)的概念、目標值等等。并且提到,在當前存在的移動系統(tǒng)中,信道阻塞率一般為5%~10%,而公共陸地電話網絡到固定電路網絡的阻塞率設計為1%。itu給出的建議標準是一重要參考,但指標最低門限是各運營商根據實際經驗、設備商的建議和統(tǒng)計自行制定。
本文的主要工作在于:
1)應用盒須圖模型模型中的穩(wěn)健統(tǒng)計量和異常值定義,對各種關鍵性能指標的異常門限或等級門限的制定給出魯棒性強,符合數理統(tǒng)計規(guī)律的指導性建議。并應用盒須圖的可視化功能,直觀便捷的觀察指標的統(tǒng)計規(guī)律,并對指標進行橫向比較。
2)尊重地區(qū)差異,應用k-均值聚類的方法探索各不同地市之間在移動網絡優(yōu)化質量評價中的恰當分類。
1指標異常門限與等級門限
1.1網絡均衡性
對用戶而言,在平時進行通信時,若在不同時間、空間下有著不同的通話質量或者掉話率,就會引起用戶總體的感知度差。當前由于移動通信話務統(tǒng)計指標的海量數據中,如果采用平均值得方式考核,就會忽略了指標的波動甚至異常。因此作為指標門限的制定的目的,要使網絡kpi指標時刻和任何地點都有相對比較均衡的表現(xiàn),并且要快速明顯的找出突發(fā)事故,發(fā)現(xiàn)和判別異常值。另外,排除異常值干擾后,要對各指標設定門限等級進行好中差的評價。符合統(tǒng)計規(guī)律、并且引領向好方向發(fā)展的管理評價才能使網絡優(yōu)化工作臻于至善。
1.2盒須圖模型
尋找合適的方法研究數據的合理范圍,發(fā)現(xiàn)和處理粗大的異常值是十分重要的.統(tǒng)計學為解決相關問題進行了許多積極的有益的探討,對單個變量且樣本容量不大時,已有許多較好的檢驗方法,諸如:z-檢驗、dixon檢驗、grubbs檢驗、nair檢驗、偏度-峰度檢驗等,它們都是以數據總體呈正態(tài)分布為前提[2]。然而對于由移動通信系統(tǒng)kpi指標影響因素很多,數據分布未知且比較復雜。
根據中心極限定理和通信干擾統(tǒng)計的相關的研究[3],移動通信網絡指標在受不同隨機因素影響的標準環(huán)境下,服從正態(tài)分布。然而在實際環(huán)境中,移動通信網絡呈各種不規(guī)則的偏態(tài)單峰分布,難于用已知分布去擬合所有指標的數值分布情況。為此,本文采用盒須圖模型結合穩(wěn)健統(tǒng)計量的方法[4]。
圖1盒須圖模型
如圖1,盒須圖模型可以清晰地表示指標數據的分布特征,通過數據樣本的計算能得出五個次序統(tǒng)計量:中位數、內四分位距、偏態(tài)、最大/小觀測值和異常值。
1)中位數:描述指標樣本的數據中心位置。
2)四分位數:第一四分位數(q1),又稱“下四分位數”,等于該樣本中所有數值由小到大排列后第25%的數字。第二四分位數(q2),又稱“中位數”,等于該樣本中所有數值由小到大排列后第50%的數字。第三四分位數(q3),又稱“上四分位數”,等于該樣本中所有數值由小到大排列后第75%的數字。
3)內四分位距:描述指標樣本的數據離散程度。用盒形的高度表示。
4)最大/小觀測值:描述指標樣本合理數據存在的范圍。用延伸的直線來表示,稱為“觸須”,觸須的頂部和底部分別為樣本指標數據中非異常數據的最大觀測值。若沒有異常值,樣本的最大值為上觸須的頂部,樣本最小值為下觸須的底部。
5)偏態(tài)(skewness):描述指標樣本數據中心偏離的程度。用盒中橫線在盒子的位置表示。s=
異常數據(outliers):大于盒形頂部或底部延伸1.5倍內四分位距的數據稱為粗大異常數據。大于盒形頂部或底部延伸3倍內四分位距的數據稱為極端異常數據在在圖中紅色‘+’表示該處數據為一粗大異常數據。
采用盒須圖模型的優(yōu)勢[2],1.有強大的穩(wěn)健性和耐抗性(抗崩潰),極端值幾乎不影響。2.不需要分布的先驗知識,對數據真實的呈現(xiàn)。3.能包含絕大多數帶分布性質的合理數據,并且判斷異常值是以四分位數和四分位距為依據,較為客觀。多達25%的異常數據不能影響這個標準。4.可視化直觀間接的觀察數據的統(tǒng)計性質,可通過盒中橫線、盒形長短、盒須長短和紅十字觀察到中位數、四分位距、合理范圍和異常值等情況。此外,還可以觀察到分布的偏態(tài)和尾重。若數據分布為正態(tài)分布,中位數和數學期望將重合,異常值判定約在±2.638σ以外,異常數據占全部數據不大于0.7%,與萊特準則接近。
1.3應用實例
我們以2010年11月1日到2011年2月23日,某省話務量最大的四個城市(一類城市)的尋呼成功率為例子,演示計算過程、畫出盒須圖(非異常數據占總數據比)。見圖2:
我們再以這四個一類城市的2010.9.8~2011.2.23的pdch復用度所有指標數據,應用盒須圖模型,考察它的合理數據(非異常數
據)的占比,見表1。
另外,我們對某省21個地級市的2010.11.1~2011.2.23信道完好率指標做盒須圖橫向對比,觀察它所呈現(xiàn)的數據特性,見圖3。
根據以上的結論,我們可以驗證用盒須圖模型的方法觀察數據:
1)異常數據只是占數據總體的少量部分,并且都有明顯的離群的現(xiàn)象。
2)考慮了數據的分布形態(tài),尊重了地市的現(xiàn)實情況。
3)直觀、可視化,并為從事質量管理提供了如數據中心、分布離散程度等其他相信息。
2地市分類
由于各地市在經濟發(fā)展速度、網絡建設、人口和社會環(huán)境等各種因素的不均衡,要有根據的對不同地市分類比較,才能做到尊重地區(qū)差異的情況。因此,要科學合理的根據話務統(tǒng)計指標劃分地市,必須要采用統(tǒng)計學的方法,為網優(yōu)管理提供有效的決策支持。
因此,我們嘗試用移動通信kpi、話務量和數據業(yè)務量等數據,采用k-均值聚類的方法來研究移動通信的地市分類。
本節(jié)我們將根據多維度評估對kpi的分類,分別對指標進行k-均值聚類,我們采用matlab 7.1軟件和數理統(tǒng)計工具箱的kmeans函數[5][6][7]來進行聚類。在這個階段,k值(分類)的選擇是是十分重要的,如果k取值過小,則不能發(fā)現(xiàn)有效的分類模式,使劃分失去了意義;如果k值取值過大,分類指標將變得瑣碎,各類之間的特征區(qū)分不是特別明顯,對指導管理經營活動沒有操作性。根據以往業(yè)務經驗,分別取值2~5對樣本進行嘗試計算,然后用silhouette值觀測區(qū)分確定有效的k值(分類數)。silhouette值數據點與它本身聚類中的點的距離比上它與其他聚類中的點的距離,
s(x)=
minb(x,y)-a(x,y)
max(a(x,y),minb(x,y)),其中b(x,y)=avg(d(x,y)),是x點與除開與x在同一聚類的點的平均距離。a(x,y)是x點與其同處于
一個聚類的點的平均距離。[9]
2.1話務量、數據量分類
我們以2010年11月1日至2011年2月23日表示話務量的指標——tch話務量(峰值)和表示數據量的指標——pdch占用數(20點),先對日指標求最大值,然后進行二維k-均值聚類。
我們設分類數k=2,3,4,5進行k-均值聚類,畫出silhouette圖。
從圖4中我們可以看出,21個地市按tch話務量(峰值)、pdch占用數(20點)分類,當k=2和4,各組區(qū)分于其他組的silhouette值大部分都比較大(大于0.6),并且沒有負值,說明分類比較好。
表2 tch話務量(峰值)、pdch占用數(20點)k-均值聚類(2010-11-1~2011-2-23)
從表2中可以看出,地市關于話務量和數據業(yè)務量的分類,符合當前人們對該地市的社會經濟發(fā)展各因素的理解,因此可以作為地市網優(yōu)管理分類的重要參考。
3結論
移動通信網絡指標異常值的挖掘是一個很有實際意義的問題。目前從物理上沒有確切的模型做為發(fā)現(xiàn)異常值的先驗參考;在少樣本,其他因素劇烈影響的影響和非標準環(huán)境下,各指標分布情況復雜;從統(tǒng)計量的穩(wěn)健性考慮去判別異常波動指標,因此采用盒須圖模型做了嘗試和數據論證。經過計算說明:采用盒須圖次序統(tǒng)計量模型制定異常門限,能包含大多數指標數據;并且由盒須圖直觀方便的可視化功能,能迅速的將統(tǒng)計結果轉化為視覺映像,用此方法計算簡單,效率高,較為合理,有利于管理的橫向比較,具有一定的實用價值。
為了對網絡產生的話務統(tǒng)計數據進行研究,科學、客觀的參照,并尊重地市網絡建設、話務分布乃至社會經濟等各方面差別的因素,必須對網絡分類。本文嘗試采用k-均值聚類方法對某省21個地市的移動通信網絡的話務量、數據量分類,并結合各分類的silhouette值選擇k的大小。分類的效果說明這樣的分類是有意義的。