[乾貨] 一個數據科學家的新年計劃

關於轉載授權

大數據文摘作品,歡迎個人轉PO朋友圈,自媒體、媒體、機構轉載務必申請授權,後台留言「機構名稱+文章標題+轉載」,申請過授權的不必再次申請,只要按約定轉載即可,但文末需放置大數據文摘二維碼。

選文|孫強
翻譯|趙娟 王玨
對|姚佳玲

簡介

新年並非僅僅是更換日曆或是清晨起床後揉開雙眼。新年是充滿喜悅的一個嶄新開始。它給我們一個完美的理由養成一個新習慣,它意味著新「希望」的到來。

如果你正在閱讀這篇文章,我確信數據科學會讓你興奮!你要在2016年做出改變,難道不是嗎?如果你從今天開始致力於做到這些目標,這是完全可能的。你必須明白,成為一個數據科學家需要一個過程,它不是一朝一夕的成功。因此,你必須耐心地朝著目標而努力。

提示:

1. 原文中涉及了大量鏈接,值得收藏!在大數據文摘後台,回復計劃可下載doc文件,獲取文中提供的所有鏈接。

2.這些通用的學習計劃是為有抱負的/有經驗的數據科學家準備的。該文章可能不適合非數據分析領域的人員。

 一個數據科學家的新年計劃

我已經將這些學習計劃根據數據科學家的三個水平階段進行了分類。你來決定那個階段最適合你,並進行實踐。當你完成本階段的學習任務後,便可進入下一個階段。針對不同的學習主題,我列出了可獲取的最好的課程。為了達到最佳效果,我建議你逐一學習這些課程。如果你覺得課程學習困難,請與我討論,我會給你提供一個備選方案。方便起見,我分享了可供下載的連接。

[乾貨] 一個數據科學家的新年計劃

初級水平


誰是初學者?如果數據分析和數據科學對你來說是一個全新的領域,你不了解這個行業是如何運作的,但是,你滿懷好奇的在該領域發展你的事業,那麼,你就是個初學者。下面就是你的學習目標:

1.從編程語言開始,無論是R或Python。

我曾看到有學生同時學習R和Python。最終,他們什麼都沒學會。這種學習方法很糟糕。你必須保證自己深入學習R或Python。這是兩個在公司中廣泛應用的開源工具。Python是公認的最簡單的編程語言。R仍是人們最為喜愛的統計工具。選擇權在你。兩者都很好。

學習課程:在Codecademy完成Python的學習。在DataCamp完成R的學習。 

2.學習統計學和數學

統計學是關於假設和運算的學科。但是,如果你不懂統計和數學,很難在這個行業立足。它是數據科學家的核心競爭力。如果你的數學不好,是時候改變了。習慣使用強大的統計技術、代數和概率學。在可汗學院(Khan Academy)、 Udacity 等平台上有非常棒的統計學課程。裝上這些APP,便可馬上開始學習。

學習課程:在Udacity上完成 InferentialDescriptive統計學習。在 Khan Academy完成代數的學習。

3.報名參加一個大型開放式網路課程(MOOC)

大型開放式網路課程(簡稱MOOC)可以自由訪問和學習。但是,這是你做出的最難做到的承諾。學生們通常一次性報名參加多個課程,但最終一個也完成不了。因此,你必須專注於一個課程,完成之後,在進入下一個課程的學習。你可以在coursera, edX, Udacity上學習任何課程。

學習課程:在Coursera完成數據科學專業(R)的學習。在Dataquest完成數據科學Python的學習。 

4.積極參與行業實踐,發現新事物

你需要知道這個行業正在發生哪些變化。我們生活在一個充滿活力又瞬息萬變的世界。今天還十分盛行的技術明天可能就過時了。你必須與經驗豐富的專家交流,結識「未來的自己」。現在就開始行動吧,加入討論、參加聚會、關注博客、參加團體活動,並閱讀專業書籍。你可以在Facebook 上跟進這方面的最新消息。


[乾貨] 一個數據科學家的新年計劃


中等水平

誰是中等水平的數據科學家?如果你已經完成了初級水平的學習,並且已經嘗使用機器學習的基礎知識,熟練掌握了建立預測模型的知識,那麼你已經到達了數據科學家的中級水平。達到這個水平需要巨大的決心和大量的練習。準備好迎接這個挑戰了嗎?

1. 理解並構建機器學習技能


機器學習是數據科學與技術的未來。所有大公司在雇傭該項技術人才方面投入大量的資金和人力。毫無疑問,當前這種人才的市場需求巨大。對個人而言,也是個不可多得的好機會。今年,你應當在機器學習方面深入拓展。熟練掌握回歸分析(Regression)、聚類分析( Clustering)、 CART 算法。打開下面的連接,你可以找到關於機器學習方面的免費學習資源:

學習課程:在Andrew Ng完成機器學習的課程。


2. 專注於Ensemble和Boosting 算法的學習


一旦你對機器學習充滿自信,那麼轉攻下一個模型吧。使用boosting和ensemble算法,可以使得模型的精度遠遠高於其他算法。上面分享的免費學習資源已經涵蓋了這個主題。但是,要讓自己更深入的理解這個主題。

學習課程:閱讀 Kaggle的Ensembling 指南(Guide)。在MIT Lecture完成Boosting的學習。

 

3. 探索使用Spark, NoSQL以及其他大數據處理工具

 本年,你將開啟自己的大數據之旅。鑒於大數據人才需求的蓬勃發展,你必須學會Spark軟體。最近它非常流行。大數據的未來依賴於Spark,它被廣泛應用於大數據的操作和處理。通過學習Spark,你還可以拓展自己的專業知識到NoSQL , Hadoop上。

學習課程:首先學習Spark.


4. 教育社區同伴


還有什麼比知識分享更棒!從今年開始,同那些努力學習數據科學的人分享你的知識。你可以加入活躍的數據科學論壇(forums),幫他們解疑答惑,教會他們有用的技巧和竅門。你也可以舉辦類似的聚會。

行動指南:追隨我們Facebook


5. 參加數據科學競賽


是時候檢驗你的學習效果了。今年你必須參一些競賽,它能幫你認清自己的長處和短板。此外,你會對已掌握的知識更加自信。我希望你能榮登Kaggle Top500排名榜。從現在開始,你的目標是成為the Last Man Standing(點擊打開連接,這是一個數據科學領域的競賽)。

 行動指南:加入KaggleData Hack


提示:比賽可能有點兒難。你可以通過查看這些實際問題來檢查自己的技能和知識。他們一點兒不難,但非常有趣!

[乾貨] 一個數據科學家的新年計劃


高級水平


 我無需定義這類人群。大部分人都非常害怕去嘗試數據科學,但他們卻十分精通。他們已經過上了輕鬆愜意的生活,但是,他們熱愛挑戰。他們是經驗豐富的專家。下面是一些學習計劃:


1.構建一個深度學習模型(deep learning model)

 今年,你要為立志於成為數據科學家的人樹立榜樣。你必須創建深度學習(deeplearning)的模型。在世界各地,已經有人使用這些模型進行預測了。這是機器學習的高級階段。其準確性已明顯優於一般的機器學習模型。

學習課程:完成Tutorial 的深度學習。


2. 回饋社群

 我相信知識是用於分享而不是用於存儲的。分享得越多,學到的越多。換種方法解釋,「你學到一個新概念,然後解釋給你的兩個朋友聽,你對這個概念的記憶可能會更久。「今年,你制定一個計劃,利用你的知識和經驗幫助數據分析社區的成員。這會幫助那些在數據分析領域苦苦掙扎的人們找到勝利的彼岸。

行動計劃:在Discuss 上分享你的知識。


3.探索強化學習(Reinforcement Learning)


 強化學習是(Reinforcement Learning)機器學習中最強大的,然而少有人開發的一個分支。今年,在這一領域做些研究。雖然很有挑戰性,但值得一試。無人駕駛、間諜無人機就是強化學習的成果。一旦你開始涉足該領域,你就自動進入人工智能領域。

學習課程:完成Andrew Moore的tutorial


4. 進入Kaggle前50名


今年,你必須保持住在Kaggle上的「大師」地位,準確的講,確保自己在Kaggle排名進入前50。參加適合自己領域的相關競賽,與其他kagglers組隊。參與這個水平的競賽,你會學習到一些在其他地方學不到的理念。

行動計劃:加入Kaggle

追蹤你的進程。2016年新年學習計劃表 Download

結束語

我理解,這些學習計劃對你具有挑戰性,但值的一試。根據你當前的情況,自由選擇適合自己的學習計劃。我只是羅列了有抱負的數據科學家必須要知道的重要知識和技能。

在上周我意識到,人們並沒有足夠的勇氣制定新年計劃。這個問題也曾困擾著我。因此,我決定寫下這篇文章。我希望,在2016年結束之前,你會完成初級水平的學習(假設你是一個新手)。

這篇文章已經為你制定新年計劃掃除了障礙。作為一個有野心的數據科學家,我已經為你提供了「硬骨頭」,就等著你去啃下它了。在學習的過程中如果遇到任何困難,請在下面的評論分享你的想法。

編譯團隊

[乾貨] 一個數據科學家的新年計劃

[乾貨] 一個數據科學家的新年計劃

[乾貨] 一個數據科學家的新年計劃

[乾貨] 一個數據科學家的新年計劃

往期精彩文章推薦,點擊圖片可閱讀

  • 天龍八步(上):8步讓你變成數據科學家

[乾貨] 一個數據科學家的新年計劃

  • 天龍八步(下):8步從Python白丁到專家,從基礎到深度學習

[乾貨] 一個數據科學家的新年計劃

【限時乾貨下載】

[乾貨] 一個數據科學家的新年計劃

點擊下圖,閱讀「2016大數據發展7大趨勢」

[乾貨] 一個數據科學家的新年計劃

2016/1/31前
2015年12月乾貨文件打包下載,請點擊大數據文摘底部菜單:下載等–12月下載


大數據文摘精彩文章:
回復【金融】 看【金融與商業】專欄歷史期刊文章
回復【可視化】感受技術與藝術的完美結合
回復【安全】 關於泄密、黑客、攻防的新鮮案例
回復【算法】 既漲知識又有趣的人和事
回復【Google】 看其在大數據領域的舉措
回復【院士】 看眾多院士如何講大數據
回復【隱私】 看看在大數據時代還有多少隱私
回復【醫療】 查看醫療領域文章6篇
回復【徵信】 大數據徵信專題四篇
回復【大國】 「大數據國家檔案」之美國等12國
回復【體育】 大數據在網球、NBA等應用案例
回復【志願者】了解如何加入大數據文摘
長按指紋,即可關注「大數據文摘」
[乾貨] 一個數據科學家的新年計劃
專注大數據,每日有分享

閱讀原文


關於作者:
數據使金融、互聯網、IT發生巨變又顛覆著醫療、農業、餐飲、房地產、交通、教育、製造乃至人類本身。旨在普及數據思維,傳播數據文化,我們為您精選各行業大數據相關案例、資訊,幫您緊跟科技前沿,手握數據思維、數據分析、數據挖掘、數據可視化等重磅乾貨

微信號:BigDataDigest

推薦閱讀:

》生不出男孩被婆家逼走,獨自養兩個女兒流落街頭,如今她是身價60億的水餃皇后!

》她是中國史上最強女海盜,讓多少洋人感受過被她支配的恐懼!