數(shù)學(xué)技術(shù)之算法概論篇(6)
⑤當(dāng)今世界最受人們重視的十大經(jīng)典算法
當(dāng)今世界,已經(jīng)被發(fā)現(xiàn)或創(chuàng)造的經(jīng)典算法數(shù)不勝數(shù)。如果,一定要你投票選出你最看重的十大算法,你會(huì)作何選擇?2011年,有人在Stack Exchange上發(fā)起了提問(wèn),向網(wǎng)友們征集當(dāng)今世界最為經(jīng)典的十大算法。眾人在一大堆入圍算法中進(jìn)行投票,最終得出了呼聲最高的以下十個(gè)算法。鑒于其中多數(shù)算法前面已在不同的地方分別介紹過(guò),這里從略。不過(guò)希望網(wǎng)友明白一點(diǎn),以下票選出來(lái)的十大算法,受票選領(lǐng)域所限,不等同于、也絕非就是當(dāng)今世界最為經(jīng)典的十大算法,如許多常用的數(shù)值型經(jīng)典算法并不在列等。
第一名:Union-find 合并操作和查詢算法;
第二名:Knuth-Morris-Pratt字符串匹配算法;
第三名:BFPRT 算法;
第四名:Quick sort? 快速排序算法;
第五名:Floyd-Warshall all-pairs 最短路徑算法;
第六名:Gentry's Fully Homomorphic Encryption Scheme? 紳士完全同態(tài)加密機(jī)制算法;
第七名:Depth First Search、Breadth First Search?? 深度、廣度優(yōu)先搜索算法;
第八名:Miller-Rabin 作的類似的試驗(yàn)測(cè)試算法;
第九名:Binary Search ??二分查找算法;
第十名:Huffman coding? 霍夫曼編碼算法。
⑥程序員應(yīng)知道的10大基礎(chǔ)算法
這里總結(jié)出的《程序員應(yīng)知道的10大基礎(chǔ)算法》,包含排序、查找、搜索和分類等幾類算法,當(dāng)然是程序員應(yīng)當(dāng)知道的一些基礎(chǔ)算法,但是不是“程序員應(yīng)知道的10大基礎(chǔ)算法”,可能是仁者見(jiàn)仁、智者見(jiàn)智,不同看法一定很多。因其數(shù)量極其有限,既不可能全面,更不可能完善,只能是僅供參考而已。
算法一:快速排序算法
快速排序是由東尼 霍爾所發(fā)展的一種排序算法。在平均狀況下,排序 n 個(gè)項(xiàng)目要 (nlogn)次比較。在最壞狀況下則需要 (n
2)次比較,但這種狀況并不常見(jiàn)。事實(shí)上,快速排序通常明顯比其他 (n log n) 算法更快,因?yàn)樗膬?nèi)部循環(huán)可以在大部分的架構(gòu)上很有效率地被實(shí)現(xiàn)出來(lái)??焖倥判蚴褂梅种畏ú呗詠?lái)把一個(gè)串行分為兩個(gè)子串行,再分別進(jìn)行排序。
算法步驟:
1 從數(shù)列中挑出一個(gè)元素,稱為 “基準(zhǔn)”。
2 重新排序數(shù)列,所有元素比基準(zhǔn)值小的擺放在基準(zhǔn)前面,所有元素比基準(zhǔn)值大的擺在基準(zhǔn)的后面。在這個(gè)分區(qū)退出之后,該基準(zhǔn)就處于數(shù)列的中間位置,稱為分區(qū)操作。
3 遞歸地把小于基準(zhǔn)值元素的子數(shù)列和大于基準(zhǔn)值元素的子數(shù)列排序。
遞歸的最底部情形,是數(shù)列的大小是零或一,也就是都已經(jīng)被排序好了。雖然一直遞歸下去,但是這個(gè)算法總會(huì)退出,因?yàn)樵诿看蔚牡?,它至少?huì)把一個(gè)元素?cái)[到它最后的位置上去。
算法二:堆排序算法
堆排序(Heap sort)是指利用堆這種數(shù)據(jù)結(jié)構(gòu)所設(shè)計(jì)的一種排序算法。堆積是一個(gè)近似完全二叉樹(shù)的結(jié)構(gòu),并同時(shí)滿足堆積的性質(zhì):即子結(jié)點(diǎn)的鍵值或索引總是小于(或者大于)它的父節(jié)點(diǎn)。
堆排序的平均時(shí)間復(fù)雜度為 (nlogn) 。
算法三:歸并排序算法
歸并排序(Merge sort)是建立在歸并操作上的一種有效的排序算法。該算法是分治法的一個(gè)非常典型的應(yīng)用。
算法步驟:
1. 申請(qǐng)空間,使其大小為兩個(gè)已經(jīng)排序序列之和,該空間用來(lái)存放合并后的序列;
2. 設(shè)定兩個(gè)指針,最初位置分別為兩個(gè)已經(jīng)排序序列的起始位置;
3. 比較兩個(gè)指針?biāo)赶虻脑?,選擇相對(duì)小的元素放入到合并空間,并移動(dòng)指針到下一位置;
4. 重復(fù)步驟3直到某一指針達(dá)到序列尾;
5. 將另一序列剩下的所有元素直接復(fù)制到合并序列尾。
算法四:二分查找算法
二分查找算法是一種在有序數(shù)組中查找某一特定元素的搜索算法。搜索過(guò)程從數(shù)組的中間元素開(kāi)始,如果中間元素正好是要查找的元素,則搜索過(guò)程結(jié)束;如果某一特定元素大于或者小于中間元素,則在數(shù)組大于或小于中間元素的那一半中查找,而且跟開(kāi)始一樣從中間元素開(kāi)始比較。如果在某一步驟數(shù)組為空,則代表找不到。這種搜索算法每一次比較都使搜索范圍縮小一半。折半搜索每次把搜索區(qū)域減少一半,時(shí)間復(fù)雜度為 (nlogn) 。
算法五:線性查找算法? BFPRT
BFPRT算法解決的問(wèn)題十分經(jīng)典,即從某n個(gè)元素的序列中選出第k大(或第k小)的元素,通過(guò)巧妙的分析,BFPRT可以保證在最壞情況下仍為線性時(shí)間復(fù)雜度。該算法的思想與快速排序思想相似,當(dāng)然,為使得算法在最壞情況下,依然能達(dá)到o(n)的時(shí)間復(fù)雜度,算法作者對(duì)此做了精妙的處理。
算法六:深度優(yōu)先搜索算法? DFS
深度優(yōu)先搜索算法(Depth First Search),是搜索算法的一種。它沿著樹(shù)的深度遍歷樹(shù)的節(jié)點(diǎn),盡可能深的搜索樹(shù)的分支。當(dāng)節(jié)點(diǎn)v的所有邊都己被探尋過(guò),搜索將回溯到發(fā)現(xiàn)節(jié)點(diǎn)v的那條邊的起始節(jié)點(diǎn)。這一過(guò)程一直進(jìn)行到已發(fā)現(xiàn)從源節(jié)點(diǎn)可達(dá)的所有節(jié)點(diǎn)為止。如果還存在未被發(fā)現(xiàn)的節(jié)點(diǎn),則選擇其中一個(gè)作為源節(jié)點(diǎn)并重復(fù)以上過(guò)程,整個(gè)進(jìn)程反復(fù)進(jìn)行直到所有節(jié)點(diǎn)都被訪問(wèn)為止。DFS屬于盲目搜索。
深度優(yōu)先搜索是圖論中的經(jīng)典算法,利用深度優(yōu)先搜索算法可以產(chǎn)生目標(biāo)圖的相應(yīng)拓?fù)渑判虮恚猛負(fù)渑判虮砜梢苑奖愕慕鉀Q很多相關(guān)的圖論問(wèn)題,如最大路徑問(wèn)題等等。一般用堆數(shù)據(jù)結(jié)構(gòu)來(lái)輔助實(shí)現(xiàn)DFS算法。
深度優(yōu)先遍歷圖算法步驟:
1. 訪問(wèn)頂點(diǎn)v;
2. 依次從v的未被訪問(wèn)的鄰接點(diǎn)出發(fā),對(duì)圖進(jìn)行深度優(yōu)先遍歷;直至圖中和v有路徑相通的頂點(diǎn)都被訪問(wèn);
3. 若此時(shí)圖中尚有頂點(diǎn)未被訪問(wèn),則從一個(gè)未被訪問(wèn)的頂點(diǎn)出發(fā),重新進(jìn)行深度優(yōu)先遍歷,直到圖中所有頂點(diǎn)均被訪問(wèn)過(guò)為止。
算法七:廣度優(yōu)先搜索算法?? BFS
廣度優(yōu)先搜索算法(Breadth First Search),是一種圖形搜索算法。簡(jiǎn)單的說(shuō),BFS是從根節(jié)點(diǎn)開(kāi)始,沿著樹(shù)(圖)的寬度遍歷樹(shù)(圖)的節(jié)點(diǎn)。如果所有節(jié)點(diǎn)均被訪問(wèn),則算法中止。BFS同樣屬于盲目搜索。一般用隊(duì)列數(shù)據(jù)結(jié)構(gòu)來(lái)輔助實(shí)現(xiàn)BFS算法。
算法步驟:
1. 首先將根節(jié)點(diǎn)放入隊(duì)列中;
2. 從隊(duì)列中取出第一個(gè)節(jié)點(diǎn),并檢驗(yàn)它是否為目標(biāo)。如果找到目標(biāo),則結(jié)束搜尋并回傳結(jié)果,否則將它所有尚未檢驗(yàn)過(guò)的直接子節(jié)點(diǎn)加入隊(duì)列中;
3. 若隊(duì)列為空,表示整張圖都檢查過(guò)了——亦即圖中沒(méi)有欲搜尋的目標(biāo)。結(jié)束搜尋并回傳“找不到目標(biāo)”;
4. 重復(fù)步驟2。
算法八:Dijkstra算法
戴克斯特拉算法(Dijkstra’s algorithm)是由荷蘭計(jì)算機(jī)科學(xué)家艾茲赫爾 戴克斯特拉提出。迪科斯徹算法使用了廣度優(yōu)先搜索解決非負(fù)權(quán)有向圖的單源最短路徑問(wèn)題,算法最終得到一個(gè)最短路徑樹(shù)。該算法常用于路由算法或者作為其他圖算法的一個(gè)子模塊。
算法九:動(dòng)態(tài)規(guī)劃算法
動(dòng)態(tài)規(guī)劃(Dynamic programming)是一種在數(shù)學(xué)、計(jì)算機(jī)科學(xué)和經(jīng)濟(jì)學(xué)中使用的算法,通過(guò)把原問(wèn)題分解為相對(duì)簡(jiǎn)單的子問(wèn)題的方式求解一些復(fù)雜的問(wèn)題。 動(dòng)態(tài)規(guī)劃常常適用于有重疊子問(wèn)題和最優(yōu)子結(jié)構(gòu)性質(zhì)的問(wèn)題,動(dòng)態(tài)規(guī)劃方法所耗時(shí)間往往遠(yuǎn)少于樸素解法。
動(dòng)態(tài)規(guī)劃背后的基本思想非常簡(jiǎn)單。大致上,若要解一個(gè)給定問(wèn)題,我們需要解其不同部分(即子問(wèn)題),再合并子問(wèn)題的解以得出原問(wèn)題的解。 通常許多子問(wèn)題非常相似,為此動(dòng)態(tài)規(guī)劃法試圖僅僅解決每個(gè)子問(wèn)題一次,從而減少計(jì)算量:一旦某個(gè)給定子問(wèn)題的解已經(jīng)算出,則將其記憶化為存儲(chǔ),以便下次需要同一個(gè)子問(wèn)題解之時(shí)直接查表。 這種做法在重復(fù)子問(wèn)題的數(shù)目關(guān)于輸入的規(guī)模呈指數(shù)增長(zhǎng)時(shí)特別有用。動(dòng)態(tài)規(guī)劃最經(jīng)典的問(wèn)題當(dāng)屬背包問(wèn)題。
算法步驟:
1. 最優(yōu)子結(jié)構(gòu)性質(zhì)。如果問(wèn)題的最優(yōu)解所包含的子問(wèn)題的解也是最優(yōu)的,我們就稱該問(wèn)題具有最優(yōu)子結(jié)構(gòu)性質(zhì)(即滿足最優(yōu)化原理)。最優(yōu)子結(jié)構(gòu)性質(zhì)為動(dòng)態(tài)規(guī)劃算法解決問(wèn)題提供了重要線索。
2. 子問(wèn)題重疊性質(zhì)。子問(wèn)題重疊性質(zhì)是指在用遞歸算法自頂向下對(duì)問(wèn)題進(jìn)行求解時(shí),每次產(chǎn)生的子問(wèn)題并不總是新問(wèn)題,有些子問(wèn)題會(huì)被重復(fù)計(jì)算多次。動(dòng)態(tài)規(guī)劃算法正是利用了這種子問(wèn)題的重疊性質(zhì),對(duì)每一個(gè)子問(wèn)題只計(jì)算一次,然后將其計(jì)算結(jié)果保存在一個(gè)表格中,當(dāng)再次需要計(jì)算已經(jīng)計(jì)算過(guò)的子問(wèn)題時(shí),只是在表格中簡(jiǎn)單地查看一下結(jié)果,從而獲得較高的效率。
算法十:樸素貝葉斯分類算法
分類是將一個(gè)未知樣本分到幾個(gè)預(yù)先已知類別的過(guò)程。在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是決策樹(shù)模型(Decision Tree Model)和樸素貝葉斯模型(Na?ve Bayesian Model,NBC)。決策樹(shù)模型通過(guò)構(gòu)造樹(shù)來(lái)解決分類問(wèn)題。首先利用訓(xùn)練數(shù)據(jù)集來(lái)構(gòu)造一棵決策樹(shù),一旦樹(shù)建立起來(lái),它就可為未知樣本產(chǎn)生一個(gè)分類。在分類問(wèn)題中使用決策樹(shù)模型有很多的優(yōu)點(diǎn),決策樹(shù)便于使用,而且高效;根據(jù)決策樹(shù)可以很容易地構(gòu)造出規(guī)則,而規(guī)則通常易于解釋和理解;決策樹(shù)可很好地?cái)U(kuò)展到大型數(shù)據(jù)庫(kù)中,同時(shí)它的大小獨(dú)立于數(shù)據(jù)庫(kù)的大??;決策樹(shù)模型的另外一大優(yōu)點(diǎn)就是可以對(duì)有許多屬性的數(shù)據(jù)集構(gòu)造決策樹(shù)。決策樹(shù)模型也有一些缺點(diǎn),比如處理缺失數(shù)據(jù)時(shí)的困難,過(guò)度擬合問(wèn)題的出現(xiàn),以及忽略數(shù)據(jù)集中屬性之間的相關(guān)性等。
樸素貝葉斯分類算法是一種基于貝葉斯定理的簡(jiǎn)單概率分類算法。貝葉斯分類的基礎(chǔ)是概率推理,就是在各種條件的存在不確定、僅知其出現(xiàn)概率的情況下,如何完成推理和決策任務(wù)。概率推理是與確定性推理相對(duì)應(yīng)的。而樸素貝葉斯分類器是基于獨(dú)立假設(shè)的,即假設(shè)樣本每個(gè)特征與其他特征都不相關(guān)。
樸素貝葉斯分類器依靠精確的自然概率模型,在有監(jiān)督學(xué)習(xí)的樣本集中能獲取得非常好的分類效果。在許多實(shí)際應(yīng)用中,樸素貝葉斯模型參數(shù)估計(jì)使用最大似然估計(jì)方法,換言之樸素貝葉斯模型能工作并沒(méi)有用到貝葉斯概率或者任何貝葉斯模型。盡管是帶著這些樸素思想和過(guò)于簡(jiǎn)單化的假設(shè),但樸素貝葉斯分類器在很多復(fù)雜的現(xiàn)實(shí)情形中仍能夠取得相當(dāng)好的效果。