| 當前位置：拓步ERP資訊網 >>服務支持 >>ERP技術支持 >>技術支持知識庫

關于機器學習的領悟與反思

發布日期：2017-1-25 10:20:50 來源：www.lukmueng.com 編輯：拓步ERP資訊網瀏覽：評論

摘要：近年來，人工智能的強勢崛起，特別是去年AlphaGo和韓國九段棋手李世石的人機大戰，讓我們深刻地領略到了人工智能技術的巨大潛力。數據是載體，智能是目標，而機器學習是從數據通往智能的技術、方法途徑。因此，機器學習是數據科學的核心，是現代人工智能的本質。 原標題：關于機器學習的領悟與反思 原作者：2017/1/23 來源：極客頭條作者：張志華
關鍵字：機器學習人機大戰

近年來，人工智能的強勢崛起，特別是去年AlphaGo和韓國九段棋手李世石的人機大戰，讓我們深刻地領略到了人工智能技術的巨大潛力。數據是載體，智能是目標，而機器學習是從數據通往智能的技術、方法途徑。因此，機器學習是數據科學的核心，是現代人工智能的本質。

通俗地說，機器學習就是從數據中挖掘出有價值的信息。數據本身是無意識的，它不能自動呈現出有用的信息。怎樣才能找出有價值的東西呢？第一步要給數據一個抽象的表示；接著基于表示進行建模；然后估計模型的參數，也就是計算；為了應對大規模的數據所帶來的問題，我們還需要設計一些高效的實現手段，包括硬件層面和算法層面。統計是建模的主要工具和途徑，而模型求解大多被定義為一個優化問題或后驗抽樣問題，具體地，頻率派方法其實就是一個優化問題。而貝葉斯模型的計算則往往牽涉蒙特卡羅(Monte Carlo)隨機抽樣方法。因此，機器學習是計算機科學和統計學的交叉學科。

借鑒計算機視覺理論創始人馬爾(Marr)的關于計算機視覺的三級論定義，我把機器學習也分為三個層次：初級、中級和高級。初級階段是數據獲取以及特征的提取。中級階段是數據處理與分析，它又包含三個方面：首先是應用問題導向，簡單地說，它主要應用已有的模型和方法解決一些實際問題，這可以理解為數據挖掘；其次，根據應用問題的需要，提出和發展模型、方法和算法以及研究支撐它們的數學原理或理論基礎等，這則是機器學習學科的核心內容；第三，通過推理達到某種智能。高級階段是智能與認知，即實現智能的目標。數據挖掘和機器學習本質上是一樣的，其區別是數據挖掘更接近于數據端，而機器學習則更接近于智能端。

統計與計算

今年剛被選為美國科學院院士的卡內基梅隆大學統計系教授沃塞曼(Larry Wasserman)寫了一本名字非常霸道的書：《統計學完全教程》(All of Statistics)。這本書的引言部分有一個關于統計學與機器學習非常有趣的描述。沃塞曼認為，原來統計是在統計系，計算機是在計算機系，這兩者是不相來往的，而且互相都不認同對方的價值。計算機學家認為那些統計理論沒有用，不解決問題，而統計學家則認為計算機學家只是在“重新發明輪子”，沒有新意。然而，他認為現在情況改變了，統計學家認識到計算機學家正在做出的貢獻，而計算機學家也認識到統計的理論和方法論的普遍性意義。所以，沃塞曼寫了這本書，可以說這是一本為統計學者寫的計算機領域的書，為計算機學者寫的統計領域的書。

現在大家達成了一個共識：如果你在用一個機器學習方法，而不懂其基礎原理，這是一件非常可怕的事情。正是由于這個原因，目前學術界對深度學習還是心存疑慮的。盡管深度學習已經在實際應用中展示出其強大的能力，但其中的原理目前大家還不是太清楚。

讓我們具體討論計算機與統計學之間的關系。計算機學家通常具有強大的計算能力和解決問題的直覺，而統計學家擅長于理論分析和問題建模，因此，兩者具有很好的互補性。Boosting、支持向量機(SVM)、集成學習和稀疏學習是機器學習界也是統計界在近十年或者是近二十年來最為活躍的方向，這些成果是統計界和計算機科學界共同努力成就的。例如，數學家瓦普尼克(Vapnik)等人早在20世紀60年代就提出了支持向量機的理論，但直到計算機界于90年代末發明了非常有效的求解算法，并隨著后續大量實現代碼的開源，支持向量機現在成為了分類算法的一個基準模型。再比如，核主成分分析(Kernel　Principal　Component　Analysis，KPCA) 是由計算機學家提出的一個非線性降維方法，其實它等價于經典多維尺度分析(Multi-Dimensional　Scaling，MDS)。而后者在統計界是很早就存在的，但如果沒有計算機界重新發現，有些好的東西可能就被埋沒了。

計算機界和統計界的通力合作，成就了機器學習從20世紀90年代中期到21世紀00年代中期的黃金發展時期，主要標志是學術界涌現出一批重要成果，比如，基于統計學習理論的支持向量機、隨機森林和Boosting等集成分類方法，概率圖模型，基于再生核理論的非線性數據分析與處理方法，非參數貝葉斯方法，基于正則化理論的稀疏學習模型及應用等等。這些成果奠定了統計學習的理論基礎和框架。

機器學習現在已成為統計學的一個主流方向，許多著名大學的統計系紛紛從機器學習領域招聘教授，比如斯坦福大學統計系新進的兩位助理教授來自機器學習專業。計算在統計領域已經變得越來越重要，傳統多元統計分析是以矩陣分解為計算工具，現代高維統計則是以優化為計算工具。

最近有一本尚未出版的書《數據科學基礎》(Foundation of Data Science)，作者之一霍普克洛夫特(John Hopcroft)是圖靈獎得主。在這本書前言部分，提到了計算機科學的發展可以分為三個階段：早期、中期和當今。早期就是讓計算機可以運行起來，其重點在于開發程序語言、編譯技術、操作系統，以及研究支撐它們的數學理論。中期是讓計算機變得有用，變得高效，重點在于研究算法和數據結構。第三個階段是讓計算機具有更廣泛的應用，發展重點從離散類數學轉到概率和統計。我曾經和霍普克洛夫特教授交談過幾次，他認為計算機科學發展到今天，機器學習是核心。而且他正致力于機器學習和深度學習的研究和教學。

現在計算機界戲稱機器學習為“全能學科”，它無所不在。除了有其自身的學科體系外，機器學習還有兩個重要的輻射功能。一是為應用學科提供解決問題的方法與途徑。對于一個應用學科來說，機器學習的目的就是把一些難懂的數學翻譯成讓工程師能夠寫出程序的偽代碼。二是為一些傳統學科，比如統計、理論計算機科學、運籌優化等找到新的研究問題。因此，大多數世界著名大學的計算機學科把機器學習或人工智能列為核心方向，擴大機器學習領域的教師規模，而且至少要保持兩、三個機器學習研究方向具有一流競爭力。有些計算機專業有1/3甚至1/2的研究生選修機器學習或人工智能。

然而，機器學習是一門應用學科，它需要在工業界發揮作用，能為他們解決實際問題。幸運的是，機器學習切實能被用來幫助工業界解決問題。特別是當下的熱點，比如說深度學習、AlphaGo、無人駕駛汽車、人工智能助理等對工業界的巨大影響。當今IT的發展已從傳統的微軟模式轉變到谷歌模式。傳統的微軟模式可以理解為制造業，而谷歌模式則是服務業。谷歌搜索完全是免費的，服務社會，他們的搜索技術做得越來越極致，同時創造的財富也越來越豐厚。

財富蘊藏在數據中，而挖掘財富的核心技術則是機器學習，因此谷歌認為自己是一家機器學習公司。深度學習作為當今最有活力的機器學習方向，在計算機視覺、自然語言理解、語音識別、智力游戲等領域的顛覆性成就，造就了一批新興的創業公司。工業界對機器學習領域的人才有大量的需求。不僅僅需要代碼能力強的工程師，也需要有數學建模和解決問題的科學家。

機器學習發展啟示

機器學習的發展歷程告訴我們：發展一個學科需要一個務實的態度。時髦的概念和名字無疑對學科的普及有一定的推動作用，但學科的根本還是所研究的問題、方法、技術和支撐的基礎等，以及為社會產生的價值。

“機器學習”是個很酷的名字，簡單地按照字面理解，它的目的是讓機器能像人一樣具有學習能力。但在其十年的黃金發展期，機器學習界并沒有過多地炒作“智能”或者“認知”，而是關注于引入統計學等來建立學科的理論基礎，面向數據分析與處理，以無監督學習和有監督學習為兩大主要的研究問題，提出和開發了一系列模型、方法和計算算法等，切實地解決了工業界所面臨的一些實際問題。近幾年，因為大數據的驅動和計算能力的極大提升，一批面向機器學習的底層架構先后被開發出來。神經網絡其實在20 世紀80年代末或90年代初就被廣泛研究，但后來沉寂了。近幾年，基于深度學習的神經網絡強勢崛起，給工業界帶來了深刻的變革和機遇。深度學習的成功不是源自腦科學或認知科學的進展，而是因為大數據的驅動和計算能力的極大提升。

機器學習的發展詮釋了多學科交叉的重要性和必要性。然而這種交叉不是簡單地彼此知道幾個名詞或概念就可以的，是需要真正的融會貫通。已故的布萊曼(Leo Breiman)教授是統計機器學習的主要奠基人，他是眾多統計學習方法的主要貢獻者，比如Bagging、分類回歸樹(CART)、隨機森林以及非負garrote稀疏模型等。萊曼教授經歷傳奇，他從學術界轉到工業界從事統計的實際應用十多年，然后又回到學術界。布萊曼是喬丹(Michael　Jordan)教授的伯樂，當初是他力主把喬丹從麻省理工學院引進到伯克利分校的。喬丹教授既是一流的計算機學家，又是一流的統計學家，而他的博士專業為心理學，他能夠承擔起建立統計機器學習的重任，為機器學習領域培養了一大批優秀的學者。

斯坦福大學教授弗萊德曼(Jerome Friedman) 早期從事物理學研究，但弗萊德曼是優化算法大師，他特別善于從優化的視角來研究統計方法，比如由此提出了多元自適應回歸(Multivariate Adaptive Regression Splines，MARS)和梯度推進機(Gradient Boosting Machines，GBM) 等經典機器學習算法。多倫多大學的辛頓教授是世界最著名的認知心理學家和計算機科學家。雖然他很早就成就斐然，在學術界久負盛名，但他依然始終活躍在一線，自己寫代碼。他提出的許多想法簡單、可行又非常有效，被稱為偉大的思想家。正是由于他的睿智和身體力行，深度學習技術迎來了革命性的突破。

總之，這些學者非常務實，從不提那些空洞無物的概念和框架。他們遵循自下而上的方式，從具體問題、模型、方法、算法等著手，一步一步實現系統化。

可以說機器學習是由學術界、工業界、創業界（或競賽界）等合力造就的。學術界是引擎，工業界是驅動，創業界是活力和未來。學術界和工業界應該有各自的職責和分工。學術界的職責在于建立和發展機器學習學科，培養機器學習領域的專門人才；而大項目、大工程更應該由市場來驅動，由工業界來實施和完成。

我國機器學習發展現狀和出路

機器學習在我國得到了廣泛的關注，也取得了一定的成績，但我覺得大多數研究集中在數據挖掘層面，我國從事純粹機器學習研究的學者屈指可數。在計算機學術界，理論、方法等基礎性的研究沒有得到足夠重視，一些理論背景深厚的領域甚至被邊緣化。而一些“過剩學科”、“夕陽學科”則聚集了大量的人力、財力，這使得我國在國際主流計算機領域中缺乏競爭力和影響力。

統計學在我國還是一個弱勢學科，最近才被國家定為一級學科。我國統計學處于兩個極端，一是它被當作數學的一個分支，主要研究概率論、隨機過程以及數理統計理論等。二是它被劃為經濟學的分支，主要研究經濟分析中的應用。而機器學習在統計學界還沒有被深度地關注。統計學和計算機科學仍處于沃塞曼所說的“各自為戰”階段。

我國計算機學科的培養體系還基本停留在早期發展階段，如今的學生從小就與計算機接觸，他們的編程能力和國外學生相比沒有任何劣勢。但由于理論知識一直沒有被充分重視，而且統計學的重要性沒有被充分認識到，這些造成了學生的數學能力和國外著名高校相比差距很大。我國大多數大學計算機專業的本科生都開設了人工智能課程，研究生則開設了機器學習課程，但無論是深度、寬度還是知識結構都落后于學科的發展，不能適應時代的需要。因此，人才的培養無論是質量還是數量都無法滿足工業界的迫切需求。

目前數據科學專業在我國得到了極大的關注，北京大學、復旦大學和中國人民大學等依托雄厚的統計學實力紛紛建立了數據科學專業或大數據研究院，并已經開始招收本科生和研究生。但是目前還沒有一所大學開設機器學習專業。機器學習對其他應用或理論學科有輻射作用，也是連接兩者的紐帶。一方面它可以為理論端儲備人才，另一方面可以結合不同領域問題，比如醫療數據、金融數據、圖像視頻數據等，為應用端輸送人才。因此，我認為在計算機科學和應用數學本科專業中，增加機器學習的訓練是必要的。

機器學習集技術、科學與藝術于一體，它有別于傳統人工智能，是現代人工智能的核心。它牽涉到統計、優化、矩陣分析、理論計算機、編程、分布式計算等。因此，建議在已有的計算機專業本科生課程的基礎上，適當加強概率、統計和矩陣分析等課程，下面是具體課程設置和相關教材的建議：

加強概率與統計的基礎課程，建議采用莫里斯·德格魯特(Morris H.DeGroot)和馬克·舍維什(Mark J.Schervish)合著的第四版《概率論與數理統計》(Probability and Statistics)為教材。

在線性代數課程里，加強矩陣分析的內容。教材建議使用吉爾伯特·斯特朗(Gilbert Strang)的《線性代數導論》(Introduction to Linear Algebra)。吉爾伯特·斯特朗在麻省理工學院一直講述線性代數，他的網上視頻課程堪稱經典。后續建議開設矩陣計算，采用特雷費森·勞埃德(Trefethen N.Lloyd)和戴維·鮑(David Bau lll)著作的《數值線性代數》(Numerical Linear　Algebra)為教科書。

開設機器學習課程。機器學習有許多經典的書籍，但大多不太適宜做本科生的教材。最近，麻省理工學院出版的約翰·凱萊赫(John D.Kelleher)和布瑞恩·麥克·納米(Brian Mac Namee) 等人著作的《機器學習基礎之預測數據分析》(Fundamentals of Machine Learning for Predictive Data Analytics)，或者安得烈·韋伯(Andrew R.Webb)和基思·科普塞(Keith D.Copsey)合著的第三版《統計模式識別》(Statistical Pattern Recognition)比較適合作為本科生的教科書。同時建議課程設置實踐環節，讓學生嘗試將機器學習方法應用到某些特定問題中。

此外，我建議設立以下課程作為本科計算機專業的提高課程或者榮譽課程。特別是，國內有些大學計算機專業設立了拔尖人才項目，我認為以下課程可以考慮列入該項目的培養計劃中。事實上，上海交通大學ACM 班就開設了隨機算法和統計機器學習等課程。

開設數值優化課程，建議參考教材喬治·諾塞達爾(Jorge Nocedal)和史蒂芬·賴特(Stephen J.Wright)的第二版《數值優化》(Numerical Optimization)，或者開設數值分析，建議采用蒂莫西·索爾的《數值分析》(Numerical Analysis)為教材。

加強算法課程，增加高級算法，比如隨機算法，參考教材是邁克爾·米曾馬克(Michael Mitzenmacher)和伊萊·阿普法(Eli Upfal) 的《概率與計算：隨機算法與概率分析》(Probability and Computing：Randomized Algorithms and Probabilistic Analysis)。

在程序設計方面，增加或加強并行計算的內容。特別是在深度學習技術的執行中，通常需要GPU加速，可以使用戴維·柯克(David B.Kirk)和胡文美(Wen-mei W.Hwu)的教材《大規模并行處理器編程實戰》（第二版）(Programming Massively Parallel Processors：A Hands-on ApprOAch，Second Edition)；另外，還可以參考優達學城(Udacity)上英偉達(Nvidia)講解CUDA計算的公開課。

我認為以計算機科學為主導，聯合統計和應用數學專業，開設機器學習研究生專業是值得考慮的。研究生專業應該圍繞理論機器學習、概率與隨機圖模型、貝葉斯方法、大規模優化算法、深度學習等基礎機器學習領域。建議開設理論機器學習、概率圖模型、統計推斷與貝葉斯分析、凸分析與優化、強化學習、信息論等課程。在附錄我列出了一些相應書籍供參考。

結語

在AlphaGo和李世石九段對弈中，一個值得關注的細節是，代表AlphaGo方懸掛的是英國國旗。我們知道AlphaGo是由deep mind團隊研發的，deep mind是一家英國公司，但后來被google公司收購了。科學成果是世界人民共同擁有和分享的財富，但科學家則是有其國家情懷和歸屬感的。

位低不敢忘春秋大義，我深切地認為我國人工智能發展的根本出路在于教育。只有培養出一批批數理基礎深厚、動手執行力極強，有真正融合交叉能力和國際視野的人才，我們才會有大作為。

核心關注：拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用，蘊涵了豐富的ERP管理思想，集成了ERP軟件業務管理理念，功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理，全面涵蓋了企業關注ERP管理系統的核心領域，是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。

轉載請注明出處：拓步ERP資訊網 http://www.lukmueng.com/

本文標題：關于機器學習的領悟與反思

本文網址：http://www.lukmueng.com/html/support/11121520412.html

關鍵詞標簽： 關于機器學習的領悟與反思,機器學習人機大戰,ERP,ERP系統,ERP軟件,ERP系統軟件,ERP管理系統,ERP管理軟件,進銷存軟件,財務軟件,倉庫管理軟件,生產管理軟件,企業管理軟件,拓步,拓步ERP,拓步軟件,免費ERP,免費ERP軟件,免費ERP系統,ERP軟件免費下載,ERP系統免費下載,免費ERP軟件下載,免費進銷存軟件,免費進銷存,免費財務軟件,免費倉庫管理軟件,免費下載,

本文轉自：e-works制造業信息化門戶網

本文來源于互聯網，拓步ERP資訊網本著傳播知識、有益學習和研究的目的進行的轉載，為網友免費提供，并盡力標明作者與出處，如有著作權人或出版方提出異議，本站將立即刪除。如果您對文章轉載有任何疑問請告之我們，以便我們及時糾正。聯系方式：QQ：10877846 Tel：0755-26405298。（請勿發郵件，由于垃圾郵件眾多，有可能會被當作垃圾郵件處理掉，同時現在很用郵件處理事務了，郵件處理時效期為3天，如急件請直接QQ聯系。）

上一篇：電氣設計軟件應用及方法

下一篇：模塊化設計能給數據中心帶來啥

相關文章

服務支持

拓步ERP系統軟件平臺11.5專業版v10.1.2...

拓步ERP系統平臺庫存管理系統培訓視頻教材


	ERP新聞動態拓步新聞行業新聞關注產品觀點縱橫企業管理企業應用

	ERP解決方案按ERP應用行業分類按ERP企業規模分類按ERP管理領域分類按ERP軟件功能分類按ERP系統特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰略診斷 ERP流程分析 ERP流程優化 ERP風險分析 ERP可行性研究 ERP整體規劃 ERP選型招標 ERP實施監理 ERP評審驗收 ERP績效評價 ERP基礎知識 ERP課程培訓 ERP培訓教育 ERP視頻教材

	CIO技術專欄 CIO企業應用 CIO網絡通信 CIO信息安全 CIO基礎設施 CIO云計算

	ERP技術支持技術支持知識庫常見問題資料庫在線學習資料庫日常辦公資料庫企業管理知識庫

	ERP系統價格拓步ERP系統價格體系拓步EIS軟件價格體系合作品牌ERP價格體系技術支持服務價格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數碼Digital 速達SuperData 拓步ERP系統成功案例

	代理加盟合作聯盟策略代理合作指南代理聯盟前景聯盟技術支持快速搜索ERP軟件資訊

	關于拓步公司介紹公司愿景企業文化誠聘英才聯系我們在線留言在線訂購意向下載體驗登記

久久国产精品免费网站_欧美成人免费在线观看_98精品国产高清在线看入口_亚洲国产精品久久精品成人

ERP技術支持

技術支持知識庫

常見問題資料庫

在線學習資料庫

日常辦公資料庫

企業管理知識庫

ERP系統教程

ERP免費下載

ERP在線咨詢

即時聯系

服務熱線

快捷互動

猜您喜歡