工業(yè)大數(shù)據(jù)建模的理論思考
有個(gè)問(wèn)題,我一直被問(wèn)了20年:你建的是機(jī)理模型還是數(shù)據(jù)模型?其實(shí),早在20年前,我就給出了答案:工業(yè)現(xiàn)場(chǎng)往往沒(méi)有純粹的機(jī)理模型、也沒(méi)有純粹的數(shù)據(jù)模型,而是兩者的融合;差別只是比重的不同。
我發(fā)現(xiàn)經(jīng)常有人過(guò)度強(qiáng)調(diào)數(shù)據(jù)算法。在工業(yè)大數(shù)據(jù)大賽結(jié)束后的發(fā)言中,我強(qiáng)調(diào)說(shuō):不要急著搞、不要急著搞算法、不要急著搞算法。意思是:先去研究一下業(yè)務(wù)相關(guān)的知識(shí)。
今天突然意識(shí)到,這個(gè)說(shuō)法或許需要深化:算法和機(jī)理的側(cè)重點(diǎn),隨著項(xiàng)目、要求和進(jìn)度的變化而變化。
在許多公開(kāi)的文章或報(bào)道中,作者往往強(qiáng)調(diào)算法的重要性。我過(guò)去總是對(duì)這種說(shuō)法嗤之以鼻。但平心而論,也有部分項(xiàng)目是靠著算法贏得成功的。但這種做法存在兩種問(wèn)題:1、過(guò)度依靠算法的模型往往可靠度低,不能用在可靠度要求高的場(chǎng)景。2、這種成功比較依賴于運(yùn)氣。形象地說(shuō),在工業(yè)領(lǐng)域,單純依靠算法成功,就像在山里撿了一塊狗頭金,可遇不可求。
所以,我現(xiàn)在的觀點(diǎn)是:強(qiáng)烈依靠算法的建模方法也可能成功,但概率低、不確定性強(qiáng),往往只能做要求簡(jiǎn)單的事情。所以,如果用戶要求不高,不妨先找?guī)讉€(gè)算法試試。但是,隨著對(duì)模型可靠度要求的提升、建模工作必須深化,機(jī)理介入的深度會(huì)逐步加深。這就好比要從靠運(yùn)氣“撿”金子,發(fā)展到挖礦、乃至用現(xiàn)代技術(shù)冶煉黃金。
理論深入的方向,似乎可以沿著“降低不確定性”的方向發(fā)展。
我有個(gè)經(jīng)驗(yàn):數(shù)據(jù)建模師,數(shù)據(jù)基礎(chǔ)非常重要。如果數(shù)據(jù)基礎(chǔ)不好,再好的算法都沒(méi)有用處。這就好比,在沒(méi)有金子的砂子里,再*的冶煉方法都沒(méi)用。
而現(xiàn)在很多人的做法是:先用算法試試看;如果不理想就更換算法。這其實(shí)是用算法本身測(cè)試數(shù)據(jù)基礎(chǔ)。這種做法的問(wèn)題是:遇到困難時(shí),人們往往不甘心失敗,可能會(huì)在算法上花費(fèi)大量的無(wú)用功。所以,需要研究的一個(gè)理論問(wèn)題是:如何事先分析判斷數(shù)據(jù)基礎(chǔ)能否滿足分析要求。如果條件不理解,可以盡快放棄或者改變目標(biāo),避免時(shí)間浪費(fèi)。這是典型的數(shù)學(xué)思維:先證明解的存在性,再設(shè)法求解。
在此基礎(chǔ)上,理論的發(fā)展方向應(yīng)該是提高模型的可靠性,而不一定是精度。我認(rèn)為:數(shù)據(jù)質(zhì)量不好時(shí),模型精度和可靠性并不等價(jià)。在多數(shù)情況下,提高模型精度容易,提高可靠性難。如果模型精度高而可靠性低,往往是今天的模型在明天就不能用了。所以,單純追求精度,往往不利于實(shí)際應(yīng)用。
在分析深化的過(guò)程中,要做兩件事:數(shù)據(jù)理解和業(yè)務(wù)理解。這個(gè)過(guò)程,就像英語(yǔ)水平不高的人,去讀一本翻譯不好的英文版《紅樓夢(mèng)》:需要花精力把英語(yǔ)的意思搞清楚,又需要把通過(guò)英文去把握人的內(nèi)心世界。其中,工業(yè)現(xiàn)場(chǎng)的數(shù)據(jù)總是存在各種問(wèn)題,這就像英文翻譯者的水平也不高。
當(dāng)人們通過(guò)算法來(lái)理解數(shù)據(jù),往往更需要算法知識(shí);通過(guò)算法理解業(yè)務(wù)時(shí),建模往往需要更多的業(yè)務(wù)知識(shí)。兩種知識(shí)必須融合在一起,才能得到好的分析結(jié)果。這就好比,我們必須通過(guò)英文來(lái)理解中國(guó)人賈寶玉,而我們又用對(duì)中國(guó)文化的理解去分析判斷英文的含義。
當(dāng)業(yè)務(wù)對(duì)模型的可靠度要求越高,這個(gè)過(guò)程越是漫長(zhǎng)、對(duì)業(yè)務(wù)知識(shí)的要求也就越高。
版權(quán)與免責(zé)聲明:
1.凡本網(wǎng)注明"來(lái)源:歐亞貿(mào)易網(wǎng)"的所有作品,版權(quán)均屬于歐亞貿(mào)易網(wǎng),轉(zhuǎn)載請(qǐng)必須注明歐亞貿(mào)易網(wǎng)。違反者本網(wǎng)將追究相關(guān)法律責(zé)任。
2.企業(yè)發(fā)布的公司新聞、技術(shù)文章、資料下載等內(nèi)容,如涉及侵權(quán)、違規(guī)遭投訴的,一律由發(fā)布企業(yè)自行承擔(dān)責(zé)任,本網(wǎng)有權(quán)刪除內(nèi)容并追溯責(zé)任。
3.本網(wǎng)轉(zhuǎn)載并注明自其它來(lái)源的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品來(lái)源,并自負(fù)版權(quán)等法律責(zé)任。
4.如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系。