顯示廣告
隱藏 ✕
※ 本文為 ryanlei 轉寄自 ptt.cc 更新時間: 2013-12-13 00:59:16
看板 Soft_Job
作者 chucheng (時間太少事情太多)
標題 Re: [請益] 想走DataMing這條路~請問該如何走
時間 Tue Sep  3 01:46:15 2013


※ 引述《gn01838335 (kkmanplayer)》之銘言:
: 目前在職碩士班時期,接觸到data mining
: 認為挖掘大資料底下的黃金非常有興趣
: 想發展另一專長,之後到資策會在職養成班進修
: 而出了社會才知道讀書的可貴,想要好好把握這一年,進修英文和加強基礎能力
: 並且和公司談資遣(希望能請領失業補助,好好讀書XD,請公司裁我~~)
: 公司也願意鼓勵我讀書
: 和家人商談後和支持,白天有機會去日間部修課
: 如果想走DataMining這條路請問要怎麼走
: 未來也想走外商公司,希望業界的前輩能給予我建議
Data Scientist 的工作pay很好,時間也很彈性,工作也很有趣XD
基本上,你的工作就是去解決那些software developer(SD)沒辦法解決的問題
最常見的情境是"改善"舊有的solution
而最常見的是,每個人對於這個solution都有不同的看法(解法)
這時候你怎麼去說服別人你的解法比他們的好

讓我舉一個簡單(每天都會看到的例子)
Google Search的時候,有那個Autocomplete
你有沒有想過,那個清單是怎麼出來的

最早的第一個版本,當然是用很簡單的heuristic,例如這個字Y -> 最常出現在X之後
但這種簡單的方法只能給你"基本/尚可"的結果
你如果要把他變得看好,怎辦?
當然,很多manager/ PM都會有自己的idea
早期的年代,通常就是試看看這個idea,放出來
然後失敗? 成功?

但萬一公司有十幾個idea呢?全試嗎?
或是公司的主管是個豬頭(people manage != 技術好)
所以這幾年很多大公司開始主張
"let data speak"
講白一點,很像在唸碩士/博士做研究
你必須先提出個假設,然後驗證你的假設,最後實作一些簡單的實驗
用過去的歷史數據佐證你的想法(或修正)
最後進行小部份user的實驗,再推廣的production

也就是這幾年的趨勢,data driven (而不是誰官大誰贏)
所以一個data scientist可以推翻VP的決定,只要他拿的出數據證明

當然,硬要講下去,data driven可以包山包海
Google怎麼"調效" ranking algorithm, Amazon怎樣挑推薦商品
基本上什麼都算,如果你對這個有興趣,下列幾個conference 是你要follow的
KDD, WWW, WSDM, SIGIR, ...,甚至VLDB or NIPS都有很多有趣的研究
尤其是多注意一下Industrial Track,就會知道業界在幹麻

當然,不是什麼東西都會被發表(top secret?)
不過八九不離十了


上面是講在做什麼,接下來講一些常用的技能
前面大大有分享Swami的圖
http://nirvacana.com/thoughts/becoming-a-data-scientist/
Becoming a Data Scientist - Curriculum via Metromap ← Pragmatic Perspectives
[圖]
Becoming a data scientist a journey; for sure a challenging one. But how do you go about becoming one? Where to start? When do you start seeing light at the end of the tunnel? What is the learning roadmap? What tools and techniques do I need to know? How will you know when you have achieved your goa ...
 

基本上他描述的都對,不過真的要把那條路走完,沒那麼簡單(太多了啦)
不過最基本的
- 要會寫code,而且對unix環境工作很okay (hadoop一般都在unix上)
- 統計及基本的data mining要會
- 要能快速的prototyping(做實驗)
- 要會適度的嘴泡,有自己的想法(基本上你不是只要做,你還要想,給talk等等)
- 要會用hadoop等大資料分析,像是Cascading, Scalding, Scoobi, pig...
- 必要時需要一點R/Excel/…畫圖的工具
- 最好能有讀寫paper的能力,畢竟多和別人交流總是好事
  (拿到履歷都是先看有沒發表個幾篇好paper,因為比只靠一小時的面試來挑人準)
  (而且data scientist其實某些程度來說,需要你有研究能力,而不是只有coding)
- 能獨立作業,不需要太多的監都(基本上他們的主管只是cheer leader)
                              (幫忙他們安排資源及推掉不重要的事)
- 至於像是怎麼用avro,maven,那些基本SD的工具/技能,能有最好
  但只要會基本得就行,不需要是專家


這幾年外商data scientist的缺不少(很多)
不過,on-job training or entry level給碩士的缺愈來愈少
很少有那種進來再訓練(進來都要訓練,但沒空給你幾年練功啦)

目前的行規,通常能滿足條件(過interview的)
通常比較常見到是好學校畢業的PhD(或是有相關經驗的碩/博士)
而且,不是光會寫paper就行,必需有業界經驗(intern?)懂hadoop,愛coding的
但對學術沒那麼大的熱情…最後不想走教職的

而且,不只是科技業
金融業硬要講,程式交易(Trading),只要用到大數據分析
基本上都會需要這種人

想當然而,好的data scientist不多
甚至"碪用"的都不太好找(因為需求很多)
錢呢?上glassdoor查一下就會知道,基本上算是非常優渥
因為不管是資深的SD轉data science
還是研究能力強的PhD補上coding/hadoop/技能
都很缺!因為很少學校/實驗室有那個資源去提供環境
因為缺,所以pay好,entry level年薪,整個package在矽谷
很容易就超過15萬鎂,高端一點的人才,輕鬆就可以破20萬鎂
不過要怎麼再往上爬,就各憑本事了


如果Work-life Balance你不在乎,只care 錢
如果願意賣肝進hedge fund,也聽過四五年後,升到senior
年收入含獎金就往百萬鎂邁進(當然,很操,而且能升到這都是更少數)
因為hedge fund只要你的model能賺錢,獎金絕對很敢發

或是有人start up 去了,像是2011年底,ebay才花了大錢,買了hunch
Hunch就是純以data mining為方向的start-up 公司
http://techcrunch.com/2011/11/21/ebayshunch/
eBay Buys Hunch To Improve Long-Tail Shopping Recommendations | TechCrunch
[圖]
Hunch, a service that provides a "taste graph" of personalized recommendations based on users' interests, has just been bought by auction site eBay, the.. ...
 

還有很多例子需要用到data scientist,總而言之
目前這個工作,很夯,很缺,因為供給相對需求少很多?

為什麼供給很少?
(甚至stanford/mit/之流,通常也很少能提供big data研究的訓練)
因為,一方面valuable的user data很難拿
就算是query log,這年頭也不可能給你
光是要拿資料,就很難了

而這裡講的分析,都是從好幾百TB裡面跑實驗…
對學術界來說,有太多其它可以做的(而不需要花那麼重的成本在建在這種環境)

有沒有這種課?當然還是有(有需求就有)
只是上完課只是入門,離可用還久的很,舉個例
CS246@stanford ( http://cs246.stanford.edu/ ) by Dr. Jure Leskovec
不過他教的比較偏方法(Algorithm)

如果對工具(hadoop)有興趣,請follow http://hadoopsummit.org/

當然,這種工作目前都是外商居多,所以…英文口說聽力必備,不然怎麼過interview?
所以如果你想走這條路,英文也要既得順便補起來一下,以備不時之需XD
以上提一些方向,僅供參考,服用請自行判斷(小心)


至於過幾年後還會那麼熱門嗎?這只有天知道了。
不過我想(現在網路公司收集的)資料量愈來愈大,幾年內需求應該都仍然很強



--
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 67.188.141.238
※ 編輯: chucheng        來自: 67.188.141.238       (09/03 02:07)
sleepwu:這篇說得好1F 09/03 02:00
sleepwu:個人認為在應用到實務上還需要懂商業流程
sleepwu:知道哪些人有甚麼資料 哪些人需要甚麼資料
sleepwu:知道資料之間的商業規則為何 才能真的apply到實務
sleepwu:否則會像是閉門造車 花時間寫了一堆很好的演算法
sleepwu:結果沒人知道那價值是什麼 也沒人知道你有多厲害
sleepwu:就因為你reach不到別人
chucheng:這些通常就是Scientist合作的PM或是Manager幫忙補上8F 09/03 02:10
chucheng:所以某些程度不能是怪咖,team work仍然很重要
chucheng:沒人能懂所有的東西,不過interview很少(難)問出非技術
chucheng:的能力就是了
tyc5116:想請問一下,所謂"基本的Data Mining"應該是指一般學校會12F 09/03 07:34
tyc5116:學到的統計分析吧?那"進階"的是哪些?
tyc5116:看內文似乎是,加入一些演算法,再以原始數據作為佐證,是嗎?
RockLee:感謝分享15F 09/03 08:04
francej:這篇講的是國外的情況吧 google search auto complete16F 09/03 10:06
francej:背後的演算法引擎也不是台灣做的
francej:樓主如果是想進台灣google的話 可能多鑽研一點android
francej:嵌入式 機會還比較高吧
pig22022:Association rule, Classification, Clustering很基本的20F 09/03 11:02
pig22022:進階sequential pattern或結合neuro network
pig22022:基礎的一些方法都了解後 再研究當中各種不同的演算法
glob:謝謝您的分享23F 09/03 11:13
wake01:統計的東西可多了吧 XD24F 09/03 11:24
jlhc:方法很多工具也很多 hadoop我覺得也不是唯一...25F 09/03 11:51
jlhc:其實整個很廣DM分歧...  專精一到兩條就很夠用了....:x
braveht:請問台灣哪家外商有開data scientist的缺?27F 09/03 12:19
wfgh:有同學在台灣TM做Data mining28F 09/03 12:57
ntddt:推專業文29F 09/03 21:19
viper9709:推~感謝分享~~30F 09/03 23:29
htl:所以還是要先花五年拼PhD再拿data scientist的門票就是了31F 09/04 00:20
Tilumi:Berkeley最近有開Data Science碩士學位,都是on-line的。32F 09/04 08:35
gn01838335:哭哭~我看來要真的先拼phd33F 09/05 11:05
chucheng:PhD是不歸路,怨念很深,沒想清楚不要開始(見PhD版)34F 09/05 13:05
chucheng:而且五年是"樂觀",我看過很多六年七年八年的
KASUGAOSAKA:結論就是去美國矽谷工作.....36F 09/09 14:30
embman:推!專業文,很實用,增進不少相關知識!37F 09/11 22:00
YunJonWei:過度強調hadoop ... 說一下你到底分析什麼事情吧38F 09/14 18:40

--
※ 看板: ryanlei 文章推薦值: 0 目前人氣: 0 累積人氣: 53 
作者 chucheng 的最新發文:
  • +9 Re: [請益]出國工作規劃 - Oversea_Job 板
    作者: 67.164.30.216 (美國) 2014-12-27 09:56:48
    看板 Oversea_Job作者 chucheng (時間太少事情太多)標題 Re: [請益]出國工作規劃時間 Sat Dec 27 09:56:48 2014 如果已有CS碩士學位,很多學校是不會再 …
    9F 9推
  • +3 Re: [北美] 請問CS PhD在工作上的好處 - Oversea_Job 板
    作者: 216.113.160.77 (美國) 2014-11-13 07:07:38
    下面寫的很主觀,二條路都有人走的很好,也有走的很不好 PhD (pros) - 綠卡:自辦EB2-NIW 或 進公司後可能可走EB1(對大陸/印度) - 起薪:大公司來說,通常博士比碩士高一級(bas …
    10F 3推
  • +5 Re: [請益] 請問菜鳥要怎麼估時間比較妥當? - Soft_Job 板
    作者: 67.164.30.216 (美國) 2014-10-20 08:52:10
    純就這點分享一點建議 (1) 定Deadline的時候,把一個大目標切成可行的Task 一個Task可以小到0.5hr,大到4hr,儘量不要超過8hr 因為超過8hr就再切小一點,不然其實就是目標不明 …
    10F 5推
  • +4 Re: [問題] 老闆要求跟他讀博後 - PhD 板
    作者: 67.164.30.216 (美國) 2014-09-30 10:44:29
    原文恕刪 博後沒有什麼不好,通常你畢業前都非常的忙,沒時間找工作 能騎驢找馬有什麼不好?最好還能凹到老師讓你早一點點畢業(反正要博後嘛) 到了博後,當然就開始找工作,萬年博後是不會有好結果的… 找到工 …
    5F 4推
  • +5 Re: [北美]念CS在美國工作的難易度疑問 - Oversea_Job 板
    作者: 216.113.168.141 (美國) 2014-09-24 04:53:13
    : : 恕刪原文 對你來說,只要到美國,就可以使用OPT工作 CS或ME都是STEM,所以本質上OPT沒太大差別(都可以拿29個月) 假設找得到工作的話,再送H1B 以碩士學歷來說,最長可以抽三次,要 …
    18F 5推
點此顯示更多發文記錄
分享網址: 複製 已複製
r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇