數(shù)學(xué)技術(shù)之模型篇(5)
三、圍棋中的數(shù)學(xué)模型
圍棋,一種中國(guó)古代發(fā)明、兩人進(jìn)行智力游戲性很強(qiáng)的棋類,有黑白、手談等諸多名字,為琴棋書畫的四藝之一。圍棋流行于亞太,覆蓋世界范圍,是一種非常流行的棋類,被認(rèn)為是世界上一種最復(fù)雜的棋類游戲。對(duì)圍棋曾有《棋定天下》一詩(shī)贊道:
無(wú)聲無(wú)息起硝煙,黑白參差云雨顛。
凝目搜囊巧謀略,全神貫注暗周旋。
山窮水盡無(wú)舟舸,路轉(zhuǎn)峰回別樣天。
方寸之間人世夢(mèng),三思落子亦欣然。
圍棋使用方形格狀棋盤及黑白二色圓形棋子進(jìn)行對(duì)弈,棋盤上有縱橫各19條直線將棋盤分成361個(gè)交叉點(diǎn),棋子走在交叉點(diǎn)上,雙方交替行棋,落子后不能移動(dòng),以圍地多者為勝。由于它將科學(xué)、藝術(shù)和競(jìng)技三者融為一體,有著發(fā)展智力、培養(yǎng)意志和機(jī)動(dòng)靈活的戰(zhàn)略戰(zhàn)術(shù)思想意識(shí)的特點(diǎn),因而,幾千年來(lái)長(zhǎng)盛不衰,并逐漸地發(fā)展成了一種國(guó)際性的文化競(jìng)技活動(dòng)。
[caption id="attachment_1396" align="aligncenter" width="300"]
網(wǎng)).jpg)
圍棋棋盤之一(取自互聯(lián)網(wǎng))[/caption]
[caption id="attachment_1397" align="aligncenter" width="222"]
網(wǎng)).jpg)
圍棋棋盤之二(取自互聯(lián)網(wǎng))[/caption]
自圍棋問(wèn)世以來(lái),隨著人們對(duì)其認(rèn)識(shí)的不斷深入,棋盤和下棋規(guī)則也在不斷的變化中走向完善。現(xiàn)在的圍棋棋盤由縱橫交錯(cuò)的十九條直線組成的361個(gè)方形交叉點(diǎn)組成。如上圖“圍棋棋盤之二”所示,棋盤有上、下、左、右四條邊,標(biāo)著八星和中天元九個(gè)點(diǎn),分為邊、角和中腹等不同的區(qū)域。我們把四條邊界線稱為一線,與邊界線相鄰的四條線稱為二線,并依次根據(jù)它們與邊界的距離遠(yuǎn)近分別稱為三線、四線等等。各線上的點(diǎn)由于距離邊界相同,使它們具有比較一致的特性。
下圍棋時(shí),先手可率先搶占有利點(diǎn),造成下棋的不公平。圍棋棋盤要多大,先手應(yīng)該為后手貼多少目棋,是影響下棋公平的主要因素。經(jīng)過(guò)近4000年左右的多次變化,圍棋棋盤由古時(shí)每邊十一道增至現(xiàn)在的十九道,勝負(fù)貼目也已基本定論并被廣泛接受,但至今仍還缺乏一個(gè)令人信服的證明,說(shuō)明其合理性。現(xiàn)在要問(wèn),能否對(duì)圍棋構(gòu)造一個(gè)數(shù)學(xué)模型,證明其合理性呢?結(jié)合當(dāng)今圍棋規(guī)則,用數(shù)學(xué)建模的方法觀察,分析,計(jì)算出相關(guān)數(shù)據(jù),看其是否合理、可用,目的是為了盡可能的使弈棋的公平,使棋手的水平充分發(fā)揮。
在圍棋中,人們比較看重的問(wèn)題有兩個(gè):① ?圍棋棋盤經(jīng)歷了多次變化,圍棋的棋盤道數(shù)多少才最為合理?② 在最為合理的道數(shù)下,先手應(yīng)該貼后手多少目,有沒(méi)有可能使貼目接近于0?下面談?wù)勅绾螛?gòu)建數(shù)學(xué)模型來(lái)解決這些問(wèn)題。限于篇幅,這里只討論第一個(gè)問(wèn)題。
為對(duì)圍棋構(gòu)建可用的數(shù)學(xué)模型并解決上述問(wèn)題,作如下假設(shè):① 對(duì)弈雙方棋力相當(dāng);② 棋盤連續(xù),棋手可在棋盤任意點(diǎn)線的空白處布子;③ 棋類比賽,有攻有守,攻守成敗以最后成活與占地多少為準(zhǔn);④ 對(duì)于一塊含兩個(gè)以上眼位的成活棋塊,以其棋子數(shù)除以這些棋子所包含的目數(shù)得到的商值稱為此棋塊的
“目效率”,記為PE。
弈棋的不公平主要來(lái)自于先手,如果改掉規(guī)則,讓兩人同時(shí)落子,便不存在不公平的問(wèn)題。但現(xiàn)實(shí)是總有先后手之分,自然先手會(huì)用第一步占據(jù)棋盤上最有利的點(diǎn),圍棋棋盤除天元外,所有的點(diǎn)都四點(diǎn)對(duì)稱。所以,只要天元不是最有利的點(diǎn),那么最有利的點(diǎn)就有4個(gè),成對(duì)出現(xiàn),后手的損失就不會(huì)太大。所以問(wèn)題就轉(zhuǎn)化為在什么情況下,天元不會(huì)成為最有利的位置。
當(dāng)棋盤過(guò)小時(shí),天元的位置極其重要,對(duì)于總道數(shù)少的小棋盤甚至第一步走在天元位置上就可以贏得全局,但隨著棋盤道數(shù)的不斷增加,棋盤增大,天元的優(yōu)勢(shì)就不明顯了,原因是天元對(duì)邊角的控制不足,導(dǎo)致邊角的利益大于天元的利益,問(wèn)題轉(zhuǎn)化為當(dāng)?shù)罃?shù)為多少時(shí),邊角可擺脫天元對(duì)邊角的控制。為使圍棋對(duì)弈時(shí)先、后手差異不太大,我們不妨取中腹和邊域目效率相差不大為目標(biāo)和依據(jù),看看圍棋的道數(shù)取多少為好。
假設(shè)棋盤每邊的邊數(shù)為x道(顯然,x應(yīng)為正整數(shù)),現(xiàn)在棋盤的道數(shù)x=19。為實(shí)戰(zhàn)需要,圍棋棋盤的道數(shù)不能太大,也不能太小,不妨假設(shè)11≤x≤23。將第四邊上的八星連線,所圍之地稱為中腹,占有目數(shù)(x-8)
2,記其目效率為PE
4;將第3邊連線,1-2邊組成邊域, 占有目數(shù)8x-16,記其目效率為PE
3。由于對(duì)x的限制,三線外的邊域及四線圍成的中腹區(qū)域都已成為實(shí)空,對(duì)手無(wú)法再做活。這時(shí),邊和中腹區(qū)域的目效率分別為:
PE3 = (8x-16)/(4x-20) ,? PE4 = (x-8)2/(4x-28)。
中腹和邊域目效率之差為
E(x) = PE4 – PE3 = (x-8)2/(4x-28) - (8x-16)/(4x-20)
基于E(x)為一單調(diào)增函數(shù),且E(18)= -0.18881和E(19)= 0.09222,故0解應(yīng)在開區(qū)間(18,19)之中,其有效解道數(shù)應(yīng)取為正整數(shù),由 E(19) < E(18) ,說(shuō)明圍棋棋盤道數(shù)x應(yīng)為取為19,取19x19的圍棋棋盤是最佳的,因而說(shuō)明現(xiàn)在的圍棋棋盤取19道有其一定的合理性。
四、自然災(zāi)害預(yù)測(cè)模型
對(duì)地震、森林火災(zāi)等自然災(zāi)害,以及飛機(jī)飛行失事、考試臨場(chǎng)發(fā)揮失常等各種被認(rèn)為僅具偶然性的隨機(jī)事件,過(guò)去利用“響鈴曲線”數(shù)學(xué)模型來(lái)預(yù)測(cè)它們發(fā)生的可能性大小或概率,因其形狀類似于鈴鐺而得名。最新研究出來(lái)的數(shù)學(xué)曲線,它的形狀較之“響鈴模型”更寬一些,曲線弧度較小而顯得較為平滑,更能準(zhǔn)確地表示那些最罕見的隨機(jī)事件的發(fā)生概率,要比老曲線模型所預(yù)測(cè)的更加頻繁。新的曲線模型,凝聚了雪崩、地震等自然災(zāi)害及生態(tài)系統(tǒng)中物種分布等各個(gè)領(lǐng)域預(yù)測(cè)專家的共同智慧和創(chuàng)意,有著更為普遍的適用性和更高的擬合度。
最新預(yù)測(cè)曲線是偶然性紊亂現(xiàn)象研究“渾沌理論”領(lǐng)域的一大突破,對(duì)人類社會(huì)的工程、氣象、災(zāi)害、保險(xiǎn)、生態(tài)等各個(gè)專業(yè)行業(yè)單個(gè)隨機(jī)性突發(fā)、偶發(fā)事件的具體預(yù)測(cè),具有極為重要的實(shí)際價(jià)值,揭示出了一個(gè)更為精確的數(shù)學(xué)曲線模型,為今后解釋和預(yù)測(cè)人類社會(huì)及自然界各種隨機(jī)偶發(fā)性事件的發(fā)生規(guī)律,提供了更為有效的科學(xué)手段。
五、語(yǔ)音識(shí)別中的數(shù)學(xué)模型
計(jì)算機(jī)語(yǔ)音自動(dòng)識(shí)別就是讓計(jì)算機(jī)能聽懂人說(shuō)話,實(shí)現(xiàn)人類自然語(yǔ)言和計(jì)算機(jī)機(jī)器語(yǔ)言之間的交流。這一問(wèn)題曾經(jīng)被認(rèn)為是“比登月還難”的科學(xué)問(wèn)題。
[caption id="attachment_1398" align="aligncenter" width="300"]
網(wǎng))-300x205.jpg)
(取自互聯(lián)網(wǎng))[/caption]
計(jì)算機(jī)語(yǔ)音識(shí)別是一個(gè)模式識(shí)別匹配的過(guò)程。在這個(gè)過(guò)程中,計(jì)算機(jī)首先要根據(jù)人的語(yǔ)音特點(diǎn)建立語(yǔ)音模型,對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行分析,并抽取所需的特征,在此基礎(chǔ)上建立語(yǔ)音識(shí)別所需的模板。計(jì)算機(jī)在識(shí)別過(guò)程中,根據(jù)語(yǔ)音識(shí)別的整體模型,將計(jì)算機(jī)中存放的語(yǔ)音模板與輸入的語(yǔ)音信號(hào)的特征進(jìn)行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入的語(yǔ)音匹配的模板。然后,據(jù)此模板的定義,通過(guò)查表就可以給出計(jì)算機(jī)的識(shí)別結(jié)果。顯然,這種最優(yōu)的結(jié)果與特征的選擇、語(yǔ)音模型和語(yǔ)言模型的好壞、模板是否準(zhǔn)確等都有著直接的關(guān)系。
計(jì)算機(jī)自動(dòng)語(yǔ)音識(shí)別用途廣泛,潛力巨大,但要真正實(shí)現(xiàn)人與計(jì)算機(jī)的自然交流卻很難,它不僅需要高深的基礎(chǔ)理論的突破和巨型計(jì)算機(jī),更需要建有使用方便、高效可靠的數(shù)學(xué)模型。
一個(gè)語(yǔ)音識(shí)別系統(tǒng)性能好壞的關(guān)鍵首先是它所采用的語(yǔ)音模型能否真實(shí)地反映話音的物理變化規(guī)律,所用的語(yǔ)言模型能否表達(dá)自然語(yǔ)言所包含的豐富語(yǔ)言學(xué)知識(shí)。但在實(shí)際應(yīng)用中,無(wú)論是語(yǔ)音信號(hào)還是人類的自然語(yǔ)言都是隨機(jī)、多變和不穩(wěn)定的,很難把握。這就是目前語(yǔ)音識(shí)別過(guò)程中的最大難點(diǎn)。
制約語(yǔ)音識(shí)別技術(shù)發(fā)展的根本是語(yǔ)音識(shí)別依據(jù)的模型和算法,模型和算法是計(jì)算機(jī)描述語(yǔ)音的能力能否抓住人的語(yǔ)音的本質(zhì)的關(guān)鍵。
目前,在研發(fā)語(yǔ)音識(shí)別系統(tǒng)時(shí)常用的算法有基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和識(shí)別算法、基于動(dòng)態(tài)時(shí)間歸整匹配的識(shí)別算法和基于統(tǒng)計(jì)的隱含馬爾可夫模型(Hidden Markov Model,簡(jiǎn)記為HMM)識(shí)別和訓(xùn)練算法等。
隱含馬爾可夫法(HMM)是70年代引入語(yǔ)音識(shí)別理論的,它的出現(xiàn)使得自然語(yǔ)音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。HMM方法現(xiàn)已成為語(yǔ)音識(shí)別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語(yǔ)音的非特定人語(yǔ)音識(shí)別系統(tǒng)都是基于HMM模型的。HMM是對(duì)語(yǔ)音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過(guò)程:一個(gè)是用具有有限狀態(tài)數(shù)的馬爾科夫鏈來(lái)模擬語(yǔ)音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過(guò)程,另一個(gè)是與馬爾科夫鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過(guò)程。前者通過(guò)后者表現(xiàn)出來(lái),但前者的具體參數(shù)是不可測(cè)的。人的言語(yǔ)過(guò)程實(shí)際上就是一個(gè)雙重隨機(jī)過(guò)程,語(yǔ)音信號(hào)本身是一個(gè)可觀測(cè)的時(shí)變序列,是由大腦根據(jù)語(yǔ)法知識(shí)和言語(yǔ)需要(不可觀測(cè)的狀態(tài))發(fā)出的音素的參數(shù)流??梢奌MM合理地模仿了這一過(guò)程,很好地描述了語(yǔ)音信號(hào)的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語(yǔ)音模型。
基于統(tǒng)計(jì)的HMM算法可能是目前最為成功的一種語(yǔ)音識(shí)別模型和算法。目前所能見到的各種性能優(yōu)良的連續(xù)語(yǔ)音識(shí)別系統(tǒng)幾乎無(wú)一例外地采用了這種模型。由于這種數(shù)學(xué)模型出現(xiàn)的時(shí)間較早,人們對(duì)它的研究也比較深入,已建立起了完整的理論框架。從20世紀(jì)80年代初人們開始用這種模型來(lái)描述語(yǔ)音信號(hào)后,就不斷對(duì)它進(jìn)行各種改進(jìn)和發(fā)展。HMM的算法是將語(yǔ)音看成是一連串特定狀態(tài),這種狀態(tài)是不能被直接觀測(cè)到的,是以某種隱含的關(guān)系與語(yǔ)音的觀測(cè)量或特征相關(guān)聯(lián)。這種隱含關(guān)系在HMM模型中通常以概率形式表現(xiàn)出來(lái),模型的輸出結(jié)果也以概率形式給出。這為系統(tǒng)最后給出一個(gè)穩(wěn)健的判決創(chuàng)造了條件。
如今,各種形式的HMM模型和算法雖已日趨成熟,但在一些重要方面還存在著許多不足之處,如:
①經(jīng)典HMM是一個(gè)齊次馬爾可夫模型,狀態(tài)轉(zhuǎn)移概率與狀態(tài)駐留長(zhǎng)度無(wú)關(guān),這與語(yǔ)音的實(shí)際情況不符;
②經(jīng)典HMM模型訓(xùn)練算法和識(shí)別算法都是假設(shè)語(yǔ)音特征是相互獨(dú)立的,這和語(yǔ)音信號(hào)的實(shí)際情況也不符;
③經(jīng)典HMM模型用于大詞匯表的識(shí)別系統(tǒng)時(shí),模型訓(xùn)練量過(guò)大,甚至是災(zāi)難性的,存儲(chǔ)量也過(guò)大,很難應(yīng)用。
對(duì)HMM模型在語(yǔ)音識(shí)別應(yīng)用中存在的問(wèn)題的進(jìn)一步研究和改進(jìn),得到了一個(gè)基于段長(zhǎng)分布的非齊次隱含馬爾可夫模型(Duration Distribution Based Hidden Markov Model,簡(jiǎn)記為DDBHMM)。這一模型用狀態(tài)的段長(zhǎng)分布函數(shù)替代齊次HMM中的狀態(tài)轉(zhuǎn)移矩陣,拋棄了“平穩(wěn)性假設(shè)”,從非平穩(wěn)的角度考慮問(wèn)題,使模型成為一種基于狀態(tài)段長(zhǎng)分布的隱含馬爾可夫模型。段長(zhǎng)分布函數(shù)的引入解決了經(jīng)典HMM語(yǔ)音識(shí)別模型的許多矛盾。
人工神經(jīng)網(wǎng)絡(luò)(ANN)方法是二十世紀(jì)80年代末期提出的一種新的語(yǔ)音識(shí)別方法。人工神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類神經(jīng)活動(dòng)的原理,具有自適應(yīng)性、并行性、穩(wěn)健性、容錯(cuò)性和學(xué)習(xí)特性,其強(qiáng)的分類能力和輸入-輸出映射能力在語(yǔ)音識(shí)別中很有吸引力。但由于存在訓(xùn)練、識(shí)別時(shí)間太長(zhǎng)的缺點(diǎn),目前仍處于實(shí)驗(yàn)探索階段。由于ANN不能很好的描述語(yǔ)音信號(hào)的時(shí)間動(dòng)態(tài)特性,所以常把ANN與傳統(tǒng)識(shí)別方法結(jié)合,分別利用各自優(yōu)點(diǎn)來(lái)進(jìn)行語(yǔ)音識(shí)別。
就算法模型而言,制約語(yǔ)音識(shí)別技術(shù)發(fā)展的根本是語(yǔ)音識(shí)別依據(jù)的模型和算法,需要進(jìn)一步的突破。目前能看出它的一些明顯不足,尤其在中文語(yǔ)音識(shí)別方面,語(yǔ)言模型還有待完善,因?yàn)檎Z(yǔ)言模型和聲學(xué)模型正是聽寫識(shí)別的基礎(chǔ),這方面沒(méi)有突破,語(yǔ)音識(shí)別的進(jìn)展就只能是一句空話。目前使用的語(yǔ)言模型只是一種概率模型,還沒(méi)有用到以語(yǔ)言學(xué)為基礎(chǔ)的文法模型,而要使計(jì)算機(jī)真正理解人類的語(yǔ)言,就必須在這方面取得進(jìn)展,這是一個(gè)相當(dāng)艱苦的工作。此外,隨著計(jì)算機(jī)硬件資源的不斷發(fā)展,一些核心算法如特征提取、搜索算法或者自適應(yīng)算法將有可能進(jìn)一步改進(jìn)。可以相信,計(jì)算機(jī)硬件和軟件技術(shù)的共同進(jìn)步將為語(yǔ)音識(shí)別技術(shù)的基礎(chǔ)性工作帶來(lái)福音。