數(shù)學(xué)技術(shù)之常用算法篇:統(tǒng)計(jì)計(jì)算(一)
張建中
2017年05月27日
(1)統(tǒng)計(jì)計(jì)算概述
統(tǒng)計(jì)計(jì)算(Statistical Computing),又稱概率統(tǒng)計(jì)計(jì)算、計(jì)算統(tǒng)計(jì)或計(jì)算機(jī)統(tǒng)計(jì),是概率論、數(shù)理統(tǒng)計(jì)和應(yīng)用統(tǒng)計(jì)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)等學(xué)科之間的交叉性、邊緣性、融合性和應(yīng)用性的計(jì)算數(shù)學(xué)的一個(gè)分支,數(shù)學(xué)技術(shù)中的一類常用算法。
統(tǒng)計(jì)計(jì)算早已有之,和概率統(tǒng)計(jì)有著同樣長(zhǎng)的發(fā)展史,只是由于計(jì)算機(jī)的出現(xiàn)和網(wǎng)絡(luò)技術(shù)的發(fā)展,解決了巨量計(jì)算、海量數(shù)據(jù)采集、存貯和傳輸?shù)壤щy,才得到了較快發(fā)展和大量應(yīng)用。統(tǒng)計(jì)計(jì)算軟件的發(fā)展和普及,同計(jì)算機(jī)圖形、圖表及數(shù)據(jù)庫(kù)等數(shù)學(xué)技術(shù)的有機(jī)結(jié)合,計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展使全球數(shù)據(jù)得以共享,進(jìn)一步推動(dòng)了統(tǒng)計(jì)計(jì)算的快速發(fā)展和廣泛應(yīng)用。
統(tǒng)計(jì)計(jì)算,研究如何根據(jù)實(shí)際問(wèn)題提出的要求,利用概率統(tǒng)計(jì)中提供的數(shù)學(xué)模型,計(jì)算數(shù)學(xué)中提供的有效算法及其自身發(fā)展起來(lái)的一些特別有效的算法,對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,挖掘其中隱含的信息和知識(shí),對(duì)問(wèn)題做出科學(xué)的分析、合理的分類、可用的預(yù)測(cè)和輔助性決策,給出實(shí)際問(wèn)題的統(tǒng)計(jì)描述和統(tǒng)計(jì)控制等結(jié)果。因此,現(xiàn)在組成了大數(shù)據(jù)處理中很重要的一類算法。
統(tǒng)計(jì)計(jì)算是處理海量數(shù)據(jù)的科學(xué),是用海量計(jì)算替代理論公式推導(dǎo)的一組工具,開辟了統(tǒng)計(jì)理論和算法研究的一條新途徑、一類新方法。
統(tǒng)計(jì)計(jì)算研究的主要范圍包括海量數(shù)據(jù)的處理和分析,如數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析計(jì)算、數(shù)據(jù)挖掘計(jì)算、多元統(tǒng)計(jì)分析計(jì)算、時(shí)序分析計(jì)算,隨機(jī)模型模擬的蒙特卡羅方法,在計(jì)算機(jī)上實(shí)現(xiàn)具體計(jì)算的軟件等多個(gè)相互關(guān)聯(lián)的方面。同時(shí),利用計(jì)算機(jī)高速實(shí)現(xiàn)數(shù)值運(yùn)算和邏輯運(yùn)算的特點(diǎn),推出了一系列和傳統(tǒng)統(tǒng)計(jì)計(jì)算不同的算法,如各種探索性數(shù)據(jù)分析算法、非參數(shù)統(tǒng)計(jì)算法、穩(wěn)健性統(tǒng)計(jì)算法,神經(jīng)元網(wǎng)絡(luò)算法,遺傳性搜索算法和再抽樣算法等等,大大豐富和增強(qiáng)了統(tǒng)計(jì)計(jì)算處理實(shí)際問(wèn)題的能力。現(xiàn)對(duì)其所含內(nèi)容簡(jiǎn)介如下:
隨機(jī)數(shù)據(jù)的統(tǒng)計(jì)分析計(jì)算
在計(jì)算機(jī)上,對(duì)實(shí)際問(wèn)題中給出的一組試驗(yàn)觀測(cè)數(shù)據(jù)或概率統(tǒng)計(jì)模型的隨機(jī)模擬數(shù)據(jù)x1,x2?,…,xn?進(jìn)行分析計(jì)算。這里,xi=(xi1,xi2,…,xim),(i=1,2,…,n;m≧1) 表示在第i次試驗(yàn)中或第i次模擬中得到的觀測(cè)數(shù)據(jù),可以是一個(gè)標(biāo)量 (m=1),也可以是一個(gè)向量(m>1)。根據(jù)xi所含變量個(gè)數(shù)m的不同(m=1或m>1)和各次觀測(cè)模擬之間是否統(tǒng)計(jì)相關(guān)或相互獨(dú)立,在分析計(jì)算時(shí)使用不同的概率統(tǒng)計(jì)模型和不同的概率統(tǒng)計(jì)算法。對(duì)各次觀測(cè)或模擬間相互獨(dú)立的隨機(jī)數(shù)據(jù),有一元(m=1)和多元(m>1)統(tǒng)計(jì)分析計(jì)算之分;對(duì)相關(guān)性的觀測(cè)數(shù)據(jù),有處理平穩(wěn)隨機(jī)數(shù)據(jù)的數(shù)字時(shí)間序列分析計(jì)算,處理突發(fā)隨機(jī)事件的隨機(jī)點(diǎn)過(guò)程計(jì)算,處理狀態(tài)離散的馬爾可夫鏈計(jì)算和處理各種觀測(cè)系統(tǒng)的數(shù)字濾波計(jì)算等。
對(duì)一組給定的隨機(jī)觀測(cè)數(shù)據(jù){xi}進(jìn)行統(tǒng)計(jì)分析計(jì)算,重要的是選擇恰當(dāng)?shù)母怕式y(tǒng)計(jì)模型和有效的進(jìn)行統(tǒng)計(jì)分析計(jì)算的算法。以對(duì)多元數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析計(jì)算為例,目的各有不同:有的要求對(duì)觀測(cè)變量之間進(jìn)行調(diào)整,使它們之間可以進(jìn)行平衡和便于比較;有的要求在不影響結(jié)果的精度和可靠度的條件下,降低觀測(cè)數(shù)據(jù)的維數(shù),化簡(jiǎn)問(wèn)題的結(jié)構(gòu);有的要求按照一定的標(biāo)準(zhǔn),對(duì)數(shù)據(jù)進(jìn)行分類或分組;有的要求給出觀測(cè)數(shù)據(jù)的方程或方程組,用這類模型解釋因變量的變異,預(yù)測(cè)系統(tǒng)的未來(lái)可能取值等等。因此,在多元分析計(jì)算中,不僅要明確進(jìn)行分析計(jì)算的目的和觀測(cè)數(shù)據(jù){xi}自身的一些性質(zhì)和特點(diǎn),而且還要了解各種不同的多元統(tǒng)計(jì)分析模型及其相應(yīng)算法的特點(diǎn)。在多元統(tǒng)計(jì)分析計(jì)算中,進(jìn)行統(tǒng)計(jì)分析的主要目的、相應(yīng)可用的統(tǒng)計(jì)模型及其常用算法如圖所示(箭頭指示出可選用的統(tǒng)計(jì)模型)。