揭秘國內機器學習人才的職業發展/就業方向/薪資狀況

揭秘國內機器學習人才的職業發展/就業方向/薪資狀況

一、機器學習相關的公司分析

1、大的有師傅的公司

這類公司主要是百度,阿里和騰訊。共同的特點是數據很大,機器學習的團隊比較龐大,一般進去的同學都可以有師傅帶著學習,進步會比較快。

但是三個公司的特點也有所不同。

百度是我認為在業務和技術之間匹配的最好,並且從基礎到應用搭配的最好的公司。機器學習方面的能力對於百度的廣告,搜尋,移動搜尋,LBS,應用分發,移動音樂,移動閱讀,移動新聞,圖片搜尋,語音輸入,瀏覽器,影片等所有業務都非常重要;而百度也非常重視機器學習團隊的搭建。目前在產品方面的表現也非常不錯。如果近期加入的團隊一旦在基礎研究以及產品化方面有巨大突破的話,百度的各個核心產品都可能大大的超出其他公司的產品。

百度的機器學習人才的需求種類最寬。

阿里目前的機器學習人才主要用在業務挖掘,廣告和推薦方面。和阿里的業務非常的匹配;根據IPO公告,以及近期的動作,阿里未來的業務發展方向主要是電商業務的區域擴張(向下是向縣城擴張,向上是跨國業務的發展)以及產品品類的擴張(從實物產品的電商向服務,金融方向的擴張。)從這種趨勢來看,未來阿里的機器學習人才需求還是以業務挖掘,廣告和推薦方面的人才需求為主(圖像處理和NLP作為feutrue的提供者,也有需求)。

騰訊公司過去的主要業務是建立在社交網路之上的遊戲,互聯網增值服務(會員和道具之類的),廣告等。根據年報,我認為騰訊今後的重點是在微信的基礎上來發展盈利性業務,目前能夠看到的業務有遊戲,電商,支付,嘀嘀打車等;騰訊也單獨把廣告和影片業務提出來當做重點業務。

結合以上對於騰訊的業務分析和預測,以及之前對於騰訊的職位的一些認識,我認為騰訊今後對於機器學習類人才的需求主要有業務挖掘,廣告算法,推薦等。

從業務上來看,三家公司都具有收入和利潤基本都來自核心業務(百度主要來自於搜尋廣告;騰訊主要來自於遊戲和增值服務,阿里主要來自於電商廣告),同時有向其他倆家的核心業務擴展的動作但是沒有成功的特點(百度嘗試過電商和社交;阿里嘗試過社交,也正在做搜尋;騰訊嘗試過搜尋,也在做電商)。

從戰略和職位設置來看,百度是從基礎到產品都做;而阿里和騰訊主要側重於應用。

2、中等規模的團隊搭建中的公司以及專業公司

有一些公司,相對於BAT來說,市場地位相對較弱,但是公司的市場地位也不錯;同時機器學習的團隊相對較小,或者布置的普遍程度相對較弱。

比如當當,攜程,去哪兒,360,58同城,優酷,樂視。這類公司一般會設置倆類機器學習的崗位,一是業務挖掘類崗位,另外就是推薦和廣告算法的團隊。這類公司具有市場地位不夠穩固,機器學習團隊相對較弱或者較新的特點。

同樣有一些中等規模的廣告行業的專業公司,也有機器學習的團隊,比如MediaV,品友互動等公司。這類公司主要的崗位是計算廣告算法工程師。

3、小的專業公司

在移動互聯網快速發展的今天,有一些專業性的小公司,產品本身對於機器學習技術的依賴性非常大,也設置了機器學習的崗位,這些小公司大多數是創業公司,業務發展的不確定性比較大,同時需要的機器學習人才和業務本身的相關性非常大。

比如口袋購物(主要需求的是推薦算法,廣告算法,NLP和圖像處理人才),今日頭條(主要需要的是文本挖掘,推薦等人才),微博易(主要需要的是文本挖掘類人才),出門問問(主要需要的是語音識別,搜尋的人才)。

不同類型的公司對於人才的要求不同,對於能夠帶給人才的東西也不同,各有優劣。同學們可以根據自己的情況靈活的選擇,每類公司中都有非常好的公司和崗位!

二、機器學習相關職位分析

1、互聯網業務挖掘

使用的主要數據和要解決的問題,初級的業務挖掘人員的工作會離數據和算法更近;高級的業務挖掘人員會離用戶和業務更近。

職位需求趨勢:

這類職位的需求量非常大,基本所有的主要互聯網公司都設置了這個崗位。這個崗位的名字常常有「分析師」,「數據挖掘工程師」等。

零售,金融,電信,製造業等行業對於互聯網業務挖掘人員也持歡迎態度。近幾年對於這類人才的需求很能會有非常大的增長。

薪水狀況:

從我接觸到的獵頭職位的情況來看,在這個崗位上工作三四年,能夠獨立和業務部門以及技術部門溝通,並且能夠靈活的應用數據為業務部門提出解釋和建議的人才的年度薪水在20萬元到35萬元左右。2年前見過大的互聯網公司的分析總監給到50萬元以上。

職業發展前景:

我個人認為人類曾經經歷過火車時代,電力時代,汽車時代,電子時代;當下的時代是數據時代。具有良好的數據分析能力的人對於越來越多的企業具有至關重要的作用。根據海德思哲公司的分析,未來的企業領袖人物往往是business+science+technology三方面都很強的人,業務挖掘工程師的工作內容和其中的倆項密切相關。

2、推薦算法

解決的核心問題是給用戶想要的,不要給用戶不想要的,降低用戶找東西的難度,給用戶更多的驚喜。不同的互聯網產品在不同的階段,可以通過推薦系統解決不同的問題和做到不同的目標。

職位的設置情況和需求趨勢:

相對業務挖掘崗位,有推薦算法職位的公司數量相對比較少。能夠看到的一些公司如下。

  • 電商:淘寶,當當,京東,口袋購物。

  • 影片:優酷土豆,愛奇藝,風行在線,樂視。

  • 音樂:豆瓣,蝦米,網易雲音樂,百度。

  • 新聞APP:今日頭條,網易新聞客戶端,百度新聞,指閱。

  • 閱讀:盛大文學,掌閱科技。

  • 團購:美團,糯米。

  • 社交:微博,linkedin。

  • 手機助手:豌豆莢,

  • LBS推薦:百度,高德。

相對電腦,手機的私密性更強,螢幕資源更小,可能會有更多的移動應用公司會部署推薦算法的崗位。

薪水狀況:

我接觸到的推薦算法負責人的職位(能夠直接面對工程和產品部門,對推薦系統的效果負責),招聘方給到的年度薪在30萬元到50萬元左右。

職業發展前景:

移動互聯網是近幾年互聯網行業最大的潛力細分領域,而推薦對於移動互聯網的所有產品都有非常重要的作用,從這個角度來講推薦算法工程師的職業前景非常不錯。

在多個移動互聯網的細分領域,推薦都處於核心地位,因此成熟的推薦算法人才創業的機會也比較多。

3、廣告算法

數據主要是倆塊,一塊是用戶的數據,除了公司自有的數據以外,也可以通過DMP(數據管理平台)獲取到一些用戶的數據;另外一塊是關於廣告的數據。

需要解決的問題就是把用戶和進行更好的匹配,提升總體的市場效率。其中CTR預估是非常重要的工作內容。

職位的設置情況和需求趨勢:

和其他的職位相比,計算廣告的公司數量比較集中。公司主要分為三類。

一類是有Exchange或者類似體量的公司(相當於有設局或者設立證券交易所的公司),有百度,淘寶,騰訊,搜狗,360,微軟,雅虎。這類公司的流量很大,廣告主的數量也很大,他們制定各自的市場內的遊戲規則(主要是資源分配的辦法以及結算辦法。)

另外一類是DSP(Demand side platform),比如MediaV,品友互動,浪淘金等。這類公司本身沒有大的流量,但是都在努力建立相對廣告主更為有效的廣告投放能力,主要從廣告主賺錢。主要的目標是幫助廣告主更有效率的把廣告投放到目標群體身上。

第三類公司是類似58同城,優酷,新浪微博這樣的大媒體。或者多盟這樣的SSP(Supply sideplatform)。這類公司自己有一定的流量,也有一些廣告主客戶。也需要有人來做市場效率的提升。

新增職業機會的來源,我能夠看到的主要有以下幾種。一種是在搜尋市場上取得突破後需要建立商業變現體系的360;還有一些是來自於對淘寶模式模仿的電商公司,比如當當;還有一類是互聯網廣告公司的業務拓展和創新,比如SSP公司向DSP業務的拓展,或者互聯網廣告監測公司,或者廣告生態種新的角色誕生帶來的新職位機會。

近幾年看到的互聯網廣告相關的變化主要有2個,一個是Google採用GSP(General second price)競價方式並逐步被別的公司跟進;另外一個變化就是有些DSP公司大力倡導RTB(Real time bidding)。這些變化都沒有帶來行業內計算廣告人才需求量的急速增長。看未來,廣告生態系統的逐漸完善而催生出的新的細分行業和公司,也沒有看到能夠帶來大的新增職位的急速增長。

但是互聯網廣告行業面臨的挑戰和機會也很多,比如多屏互動的期望,以及廣告主日益增長的需求,都對企業的創新提出了要求。

綜合以上,計算廣告行業未來的人才需求特點可能是「少而精」。

薪水狀況:

廣告目前是互聯網行業最重要的收入來源。從百度公司和阿里集團招股書中就可以看出,這倆個公司收入的絕大部分都來自廣告。

因此計算廣告人才的薪水也非常的高。

我了解到的比較成熟的計算廣告人才(同時在算法和工程方面很成熟)的年收入有50萬元到150萬元左右 。

職位發展前景:

一旦進入計算廣告行業,相對其他職位來說,創業機會較少。更有可能的是在行業內的少數幾個公司成長。該類人才的創業機會可能需要具備幾個條件,第一是外圍環境的重大變化導致的新類型公司的創立機會比較成熟,這個周期可能比較長;另外要有大量資金的支持;另外相對來說可能風險會比較大。

4、NLP

使用的數據和要解決的問題:

使用的數據主要是人們日常隨意寫出來的或者說出來的話。比如新聞,文章,微博上的話,qq的聊天,貼裡的話,博客上的話,企業呼叫中心的對話等。

要解決的問題主要是對這些內容進行抽象,映射或者響應。比如信息抽取(命名實體識別,情感分析等),機器翻譯,聚類,分類,自動問答等。

職位的設置情況和需求趨勢:

目前看到的NLP崗位設置主要有以下幾類。

一類是在搜尋公司的query處理相關的工作。目前我了解到的工作主要分倆個部分,一個部分是做query的糾正,改寫,或者近義詞分析等;另外一類工作是做Topic model的研究,意思就是把用戶的需求抽象在一個「model」上,而同時預先把網頁到抽象到一個「model」上,然後在model內部挑選出用戶最感興趣的網頁優先展示。

還有一類是研發機構的研究崗位,比如微軟,富士通研發,三星通信等機構都有NLP的研發崗位。

第三類崗位就是一些專業性公司,比如口袋購物,微博易,今日頭條,掌閱科技,簡網世紀這樣的公司。在這些公司裡NLP和圖像處理的工作地位類似,就是為下一步的處理提供feature。

從用戶端來看,WEB2.0的出現,以及社交網路的大力發展,為NLP積累下了大量的數據,同時企業也越來越重視通過網路來傾聽用戶,以及和用戶進行溝通;同時信息的急速增長,導致用戶對於個性化產品的需求越發明顯,也促進了NLP工作的推進和崗位的設置。

今後NLP的崗位會急速增長。增長的來源一部分來自於搜尋引擎公司,根據李航前輩的微博,未來搜尋突破可能來自倆個方向,一個方向是LTR(Learning to rank),另外的一個方向是Semantic match。我的理解可能semantic mtach需要大量的NLP的工作和人才。

另外一類職位我覺得來自於大量的已經產生的大量非結構化的數據處理相關的公司,以及從大量的語音識別轉化出來的數據的利用相關的公司。這個具體是在哪個方向上不好說,但是我想趨勢上一定是企業對於海量用戶產而生的嘈雜的聲音的理解和利用。數據的量還在不斷的急速增加,NLP工作量和任務類型也在增加,最終導致崗位需求的增加。

薪水狀況:

NLP人才的需求不象數據挖掘和推薦那樣量大和緊缺,和其他的職位相比薪水比較溫和。

我接觸過的獵頭職位,有公司願意給工作2年左右的NLP工程師20到30萬元的年度薪水;也有創業公司願意給NLP leader50萬元以上的年度薪水。

職位發展前景:

我預測NLP工程師在原公司的職業生命活力會比較強(數據,算法以及工作目標可能都會有新的挑戰和機會進來);同時成熟的人才也會有很多創業機會可以考慮。

5、圖像處理

使用的數據和要解決的問題:

面對的數據是圖像,具體也會有處理靜態圖像和動態影片的區別。以及離線處理和在線處理的區別。

常見的要解決的問題有檢測(就是看某個圖片裡是否有某類東西,比如是否有人臉),識別(就是輸入一個圖片,看這個圖片和庫裡的哪個圖片是一致的。)分割,拼接,3D重建,聚類,分類等。

職位的設置情況和需求趨勢:

傳統的圖像處理崗位主要分布在類似智慧眼,漢王這樣的IT公司和類似佳能,微軟這樣的研發機構中。智慧眼和漢王這樣的IT公司的產品,主要以行業用戶為主,應用的場合有門禁,安全,社保識別等。

在大數據在中國興起的前後,更多的互聯網公司開始設立圖像處理的崗位。其中百度是把圖像和語音作為文字之外的新的搜尋對象來看待的,設立了圖像處理的崗位並招聘了人才,但是具體如何產品化目前還不太清楚,目前看到的只有圖搜,就是把圖片拷貝到檢索欄裡,然後可以看到一些檢索的結果。

淘寶以及一些其他的電商公司也設立了圖像處理或者正在招聘相關的人才,主要的工作目標是為廣告和推薦等應用提供feature。

與數據挖掘,推薦和NLP職位相比,圖像處理的職位數量相對較少,發展相對比較滯後,能夠看到的大眾用戶使用的產品相對比較少。

我個人的感覺是圖像處理行業正處在一個爆發的前夕;象智能交通事故報告系統(自動對錄影頭采集到的圖像進行處理,即使在夜間也可以自動的識別出來重大事故並且提醒交警去救援),自動駕駛,離群人群自動檢測(比如機場和火車站的恐怖分子檢測)等應用都具有足夠的價值,目前系統能夠做到的水平也非常接近商品化。

我的判斷是隨著技術的突破和外圍配套(包括法規或者硬體等)的成熟,圖像處理的崗位會有大的爆發。

薪水狀況:

相對其他職位來說,圖像處理的職位比較少一些;同時薪水不是很高。但是未來的收入前景不錯。

職位發展前景:

不論在公司內部的提升,還是未來創業的角度來看,圖像處理工程師的發展機會都會越來越多。

閱讀原文


關於作者:
CSDN分享Hadoop、Spark、NoSQL/NewSQL、HBase、Impala、記憶體計算、流計算、機器學習和智能算法等相關大數據觀點,提供雲計算和大數據技術、平台、實踐和產業信息等服務。

微信號:csdnbigdata