身處在技術共享、信息爆炸的時代,技術先進技術的更迭速度超過任何歷史時期,終身學習是不得不接受的事實。如今的人工智能時代,大數據技術、物聯網、數字貨幣、智慧安防等百花齊放,在這樣的時代背景下學習大數據知識,需要有相適應的邏輯和方法。華強智慧網小編和大家分享下成為人工智能大咖所要經歷的四個階段,以饗讀者。
人工智能大咖第一步:了解背景 心里有底
“技術爆炸”以及“共享開源”是這個時代最有特色的標簽,小編認為二者是互為因果且緊密聯系的,首先在“技術爆炸”的時代,對于走在技術發展最前沿的研究團隊來說,“技術變現”的最好手段就是“共享開源”。反觀互聯網、移動互聯發展成熟之前,信息是十分閉塞的,某項技術創新一旦出現就需要第一時間注冊專利,技術需要靠政府來保護,而技術變現的唯一途徑就是出賣專利或者組織生產形成產品。
現如今互聯網及移動互聯已經發展的十分成熟,新的信息會以極低的成本在極短的時間內傳遍世界的每個角落,所以處在技術前沿的研究團隊僅需要在第一時間將自己的工作成果上傳到“arxiv”或者“github”之類中立的共享、開源網站,便會立即得到全球輿論的共同保護,這樣的力度要遠遠強于某個國家的專利保護。
隨后,只要新技術確有應用價值或者學術價值,那么各類資本巨頭、科技大鱷以及相關的各類組織便會排著隊上門送出豐厚的offer,對于前沿團隊來說,技術變現的時間點要遠遠早于技術產品化的時間點。
其次,因為“技術爆炸”總有新的技術等待著前沿團隊去研究發現,所以前沿團隊保持領先的最好方法不是捂著現有成果不放,而是盡快“共享開源”實現變現,然后投入到新的研究工作中。
最后,“共享開源”也在很大程度上促進了“技術爆炸”,無論任何技術、科技的長足發展都需要一個龐大人才體系來支撐,反觀歷史上的各個時期,分享知識、培養人才的渠道主要是“學?!?,這一渠道不但形式單一而且往往具備相當的門檻,會將相當一部分“有志青年”擋在門外。
而在如今這個時代,知識傳播最快速的渠道是互聯網,由于“共享開源”,世界上最優質的教育資源以及最先進的學術、技術理念忽然間沒有了任何門檻,面向全部個體無差別開放,結果就是只要某一技術、科技領域有了很大的突破并具備廣闊的應用前景(如大數據、人工智能),那么相應的人才梯隊會在短時間內自動補齊跟上。
站在大數據學術前沿的研究團隊只需要一往無前地開拓疆域,其后的人才梯隊隨即會自動開展“新技術論證”及“技術產品化”等“保障”工作,保障這一技術領域及相關行業的健康發展,來進一步促進資源向金字塔尖的前沿團隊匯聚,支撐其開拓工作。
我們將上文提到的人才梯隊劃分為:菜鳥筑基、初入江湖、登堂入室以及華山論劍四個等級:
菜鳥筑基:本階段的人才以大數據基礎理論的學習為主,尚不能勝任真實的項目或者工作;
初入江湖:本階段的人才已經具備了初步的大數據實踐的能力,建議通過實踐(做項目、打比賽等)來更好地帶動學習;
登堂入室:本階段的人才需具備大數據科研論文的調研、閱讀和理解能力,能夠成功地將論文中的算法進行復現;
華山論劍:本階段的人才能夠獨立地開展大數據新技術的研究工作,具有發表原創性論文的能力。
下文將針對處于不同階段的大數據人才,給出不同的修煉、升級建議。
人工智能大咖第二步:菜鳥進門 打好基礎
1.最好的資源往往是公開的
讀過背景鋪墊后相信已經不需小編再解釋為什么最好的資源往往是公開的,在此直接給出一些獲取高質量資源的渠道。首先推薦國外的三個網站,分別是“Coursera”“Arxiv”以及“Github”。
Coursera是全球頂尖的在線學習網站,由業內極具學術造詣及分享精神的大咖創辦。Coursera上的課程相對比較基礎,應該是“小白”起飛最好的平臺,在這里推薦Andrew Ng開設的“機器學習”以及“深度學習”。對于國內學生來說最大的問題可能就是英語了,在這里需要明確一點,如果各位想要成為真正的高手,那么英語是永遠繞不過去的坎,業內最新、最好的資料無一例外都是英文,即便是來自國內的頂尖高手在發論文時都不會選擇用中文。
其實對于絕大多數人,英語并不應該被當作一門“學科”來學習,而應該被當作“工具”來用。具體的做法也沒有捷徑,就是看到不懂的單詞立即查,單詞不用刻意去記憶,下次遇到不會就再查一次,一切以快速弄懂句子含義為目標。
Arxiv以及Github是各位讀者未來會特別常用的兩個網站/工具,Arxiv上有最新最全的共享論文,論文中會對各類算法進行詳盡的闡釋,Github上有最新最好的開源代碼,這些代碼往往是對某種算法的實現,具體的使用方法網上有許多教程,在此不做展開。
讀者可以簡單的理解為Arxiv是修煉內功的地方,而Github是修煉外功的地方。只練內功不練外功是無法解決實際問題的,但只練外功不練內功又往往毫無威力,一定要內外兼修。最后再向大家介紹一個神奇的網站名叫“gitxiv”,會幫助各位找到論文與代碼的對應關系。
2.不要看書、不要看書、不要看書
一門學科怎么入門呢?菜鳥在面對這個問題時,最容易踩入的“深坑”就是找一本權威的書來從頭學起,一旦踏入此坑,輕則荒廢自己數周時間,重則對某一門學科徹底失望終生。首先好書本來就不多,往往可遇不可求。其次即便遇到好書,為了保證學術性,書中用語往往“嚴謹”但難懂,且會從學科的早期歷史為讀者打下“堅實基礎”,講到最近的技術手段時又戛然而止。最后,就算讀者傾盡數月之功力,堅持讀完了,小編可以用血淋林的親身實踐告訴你,書中前半部分的內容一般人肯定會忘的。
當然也有特殊情況,如果各位已經確定了自己的研究方向,并且有高人/導師指點,給出了相應領域內必讀好書的名錄,這一類書還是值得一看的。不過在看的時候也要注意,不要糾結于某些細節問題,看不懂的地方可以先記下來,這類細節往往會在各位后面實踐過程中的具體場景下恍然大悟。
正確的做法一句話就可以概括,好書是用來查的而不是用來啃的,什么時候來查呢?下文會逐步解答。
3.找對好基友,連滾帶爬往前走
現在已經不是一個單打獨斗,憑著跌落斷崖后找到一本秘籍閉關幾年就能橫掃天下的時代了,無論是像Hinton(推翻了BP算法的BP算法之父)這樣的泰斗,還是像何凱明(發best paper像一般人發paper一樣容易的神奇學霸)這樣的新秀,都處在各自非??孔V的團隊中與小伙伴們共同探索。好基友不需要多,有一兩個真正靠譜的就已經足夠,至于隊友的重要性后文會慢慢闡釋。
菜鳥筑基這部分最后要給出的建議就是,千萬不要在這個階段停留太久,不要等“準備好了”再去著手實踐,因為這里的“準備好了”往往包含菜鳥的不自信,不去進一步提升自己是永遠準備不“好”的。一般情況下,想做“計算機視覺”或者“自然語言處理”等偏AI方向的同學在完成吳恩達的《深度學習》課程后,想做“數據挖掘”的同學在完成吳恩達的《機器學習》課程后,就可以選擇相應的實踐項目準備進入下一階段了。
那么我們該選擇什么實踐手段呢?最佳的情況是有大神帶隊做真實項目,但是這樣的機會往往可遇而不可求,在此不展開討論。普羅大眾型的辦法是參加一個大數據比賽項目,現在國內的“阿里天池”以及國外的“Kaggle”都是開放式的大數據比賽平臺,平臺上會有各種組織發布的各類真實項目供大家實踐、比賽。讀到這里各位心里可能還存有很大的疑問:“就算學會了基本課程,在沒有人帶的情況下能上手實踐嗎?”,下文將陸續回答如何“連滾帶爬”的進行實踐。
人工智能大咖第三步:初入江湖 得有幾把刷子
1.找到一個最高的baseline
這里的“baseline”可以理解為前人已經做出成果,當自己恰好需要去做相同工作時的參照。對于上文提到的情況,如果有大神帶隊進行實踐的話,那么帶隊大神此前的實踐經驗就成為了全體小隊成員的“baseline”。那對于沒有“大神”資源的廣大讀者是否有更通用的解決辦法呢?答案是肯定的。如果讀者目前對于一類問題無從下手,例如剛剛學完“深度學習”的課程,但是不知道如何去做“自然語言處理”類的項目,最好的辦法是利用好國內的“萬方”以及“知網”這樣的論文查詢平臺,去查詢相關領域國內普通高校的學位論文,這樣的論文絕大部分都是中文并且會在論文中介紹大量的基礎背景知識,正好滿足了我們的需求。
如果是對某一技術方的特定知識點不明所以,例如在做“自然語言處理”方向的項目,但卻不太了解“LSTM”,則可以利用好國內的諸如“知乎”、“簡書”以及“CSDN”這類的知識分享網站,只要不是太新的理論,都可以找到相應的博文或者解答。使用上述兩類渠道的共同技巧是,多搜幾篇文章對比著看。同一個概念或者技術,一篇文章很難全面描述清楚,并且由于文章作者不同,解釋問題的出發點也不盡相同,所以如果各位遇到看不懂某篇文章的情況時,不用急躁,接著看下一篇文章就好。另外,前文提到的“好書”在這里就可以用來查了,讀者會發現原來想記都記不住的知識點,只要“查”完并且“用”過,那么一般想忘都忘不掉。
這里對baseline所謂“高”的定義是,越接近學術前沿,實踐效果越好,就認為越“高”。一般情況下,可參照的成果越“高”,中文文獻就越少。
文章寫到這里不知是否回答了上一章節提出的疑問,上一章節提到的“連滾帶爬”指的就是我們在選定某一實踐方向后,根據實踐的最終成果再回過頭來對我們的相關知識進行“查漏補缺”的過程。這樣的學習過程,目標性更強,參與者完全有針對性的去學習,學到的東西可以立即實踐,從而避免“學過就忘”的尷尬。
2.合理追求quick win
小編曾經仔細地研究過為什么女生逛街會“不知疲倦”,得到的答案是,女生每逛一家店鋪,看看店鋪中的鞋子/衣服/包包就能得到一定的興奮點,在得到一個興奮點后就想著直奔下一個興奮點。類比到我們做項目/打比賽的過程中,我們需要為自己的團隊設置這樣的“興奮點”,讓團隊成員都能夠享受到“quick win”的快感,來支持大家繼續推進。
而取得“quick win”的關鍵是要將手中的工作/任務合理劃分成若干“稍微努力一下就能達到”的子任務,這中間的細節過于復雜,在此就不展開討論。一個teamleader需要做的最重要的事,就是幫助團隊合理劃分任務而不斷取得“quick win”,一個人只要具備這樣的能力,無論技術高低都能夠團結一批志同道合的小伙伴。
3.你最大的動力往往來自DDL(Deadline)
有那么一句成功學的佳句是“每天叫醒我的不是鬧鐘而是夢想”,這句話聽起來很勵志,但對于90%的人來說就是胡扯,我們回首望去發現每天叫醒我們的往往是“上班遲到后被扣的工資”或者是“晚到實驗室后老板的殺氣”,這就是現實,聽起來很殘酷但是我們完全可以利用好它。具體到我們的升級以及項目推進中,能讓我們不斷向前的最大動力往往是“在DDL前無法完成任務后小伙伴們的鄙視”以及“完成quick win后帶來的成就感”。
做好這一點除了上一小節提到的要合理劃分任務之外,最重要的就是有一個靠譜的team leader不斷的進行推進(push),每到既定節點后雷打不動的推進。最后要啰嗦一句,根據馬斯洛需求層次理論,夢想應該屬于模型頂層的“自我實現需求”,如果一個人可以被“夢想”叫醒,那么這個人的其他需求應該已經被很好的滿足了,所以我在這里真誠的祝福大家終有一天可以在早晨被自己的“夢想”叫醒。
人工智能大咖第四步:登堂入室及華山論劍
如果有一天各位發現自己在工作實踐中,需要不斷地關注最前沿的論文,并且需要不斷地嘗試復現論文中的算法來用于實踐,那么要恭喜各位已經跨入了大數據/人工智能領域高手的行列了。登堂入室與華山論劍兩個階段的區分不是特別明顯,因為論文讀得多了,總會有些自己的新想法,這些想法經過實驗驗證后就可以去發論文。反過來,即便你發表過前沿論文也還是需要繼續跟進其他論文。
1.朋友圈決定了你人生的高度
在這一小節的開始,小編首先要端出一碗毒雞湯,即便是在這個“開源、共享”的時代,學術/技術資源的分布還是極度不平均的,并且這樣的不平均會越來越明顯。究其原因有兩個,第一個原因可以援引在清華17級研究生開學典禮上某校領導的一句話來闡釋----“最有效果的研究手段就是與相當水平的同行當面交流”,翻譯一下就是高手越多的地方就越容易產生高手,這會導致高端人才分布的越發不平均。
另外,做學術前沿研究的經濟成本是很高的,國內某頂尖AI公司全球研發工作一個月的電費開銷就能達到千萬級別。即使是普通的AI項目,服務器、GPU的成本也會導致普通的研究人員根本無法找到充足的經費來支持自己的研究。
喝完毒雞湯也要來一些正能量,雖然資源分布不平均了,但人才通道仍然是開放的,只不過門檻越來越高而已,我身邊就有畢業四五年后,也能夠一邊工作一邊復習考上清華研究生,最終接觸到前沿科學研究的例子。
2.選擇永遠比努力更重要
這個標題聽起來又像是一碗“毒雞湯”,但這就是血淋林的生活帶給小編的經驗。小編見過某個算法團隊自己悶頭搞了幾個月研究毫無進展,經過大神點播后一個月內完工的情況。
下面舉一個更戲劇性的例子,自然語言處理曾經在20世紀70年代左右有過界限分明的兩個學派之間的激烈交鋒,一撥是希望通過語法規則來做語音識別的“規則派”,另一撥是基于統計方法的“統計派”,這兩撥從事相同領域研究的學者竟然分別召開自己的學術會議,即便出席同一大會竟然也要分場開小會。
到了20世紀90年代“統計派”的識別率已經達到了90%以上,而“規則派”僅有不到70%,勝負已分(吳軍老師的《數學之美》一書中對這段歷史進行了詳盡有趣的闡述)。但試問如果有一名博士生在20世紀70年代將自己學術方向定為“規則派”,到了20世紀90年代的時候他該做何感想?
到了“登堂入室”這個階段之后,做好選擇顯得尤為重要,這樣的選擇不僅僅限于學術方向,也涵蓋例如“做學術”還是“做產業”等等更廣義的范圍。一個可以參考的經驗是,如果人生的重大決策失誤,基本要用五年來挽回,大家要考慮清楚自己有幾個這樣的五年。
3.唯一的限制往往是自己的妥協
看看本小節的標題,讀者可能會覺得本文這下要以“毒雞湯”收尾了。但其實在這里“妥協”并不是一個貶義詞,小編認為它起碼是個中性詞。從某種意義上講,每個人最終都會達到某種“妥協”,而不妥協就意味著背后存在與現狀不匹配的野心或者欲望,什么時候野心和欲望跟現實匹配了,也就一定會“妥協”。這就是華山論劍的秘密,每個能站在頂峰的人都必定抱著某種超乎常人的野心或者欲望,當然這里的野心或者欲望是廣義的,也同樣指對于學術的追求。
最后,“毒雞湯”不負眾望的要出現了,根據小編的觀察,每個人的“妥協點”并不是自己設定的,一般情況下自己也無法影響,所以每個人最終要走到的高度往往是確定的。
從小編的角度看來,各個階段有各個階段的優勢利弊,關鍵看你自己的妥協點在哪兒,找準自己最合適的位置就可以了。