當(dāng)前位置:首頁 > 新聞中心 > 互聯(lián)網(wǎng)動態(tài)
深圳網(wǎng)站建設(shè):大數(shù)據(jù)“殺熟”?算法該管一管了責(zé)任編輯 :李飛    文章來源 :星翼創(chuàng)想(16qt59sf.cn)    發(fā)布時間 :2018-04-05    閱讀次數(shù):1982     專題 :網(wǎng)站運營

為做好種種商業(yè)預(yù)測,越來越多企業(yè)現(xiàn)在求助于計算機算法——這種技術(shù)能以驚人速度完成超大規(guī)模分析過程。


算法能讓預(yù)測更準(zhǔn)確,但也會帶來風(fēng)險,尤其是在我們不理解這些算法的情況下。一個例子是社交媒體。很多社交網(wǎng)站通過算法決定推送哪些廣告和鏈接,如果設(shè)計算法時過于側(cè)重點擊量,“騙點擊”的內(nèi)容就會充斥網(wǎng)站。雖然點擊量上升了,但整體用戶滿意度可能直線下降。


這類問題可以避免。問題根源通常并非算法本身有漏洞,而是使用不當(dāng)。為避免犯錯,管理者須首先了解算法的功能和局限:它能解決哪些問題,不能解決哪些問題。



為何“聰明”算法反誤事?


越來越多證據(jù)顯示,將算法“人格化”更易讓人們接受。例如在自動答復(fù)系統(tǒng)中,真實人聲要比模擬人聲的傳達(dá)效果好。然而根本問題在于,人們通常像對待人類同事一樣對待算法和計算機,可算法和人類有兩大不同:


算法極其“單純”。在最新的《復(fù)仇者聯(lián)盟》(Avengers)電影中,鋼鐵俠托尼·斯塔克(Tony Stark)設(shè)計了人工智能防御系統(tǒng)奧創(chuàng)(Ultron)。奧創(chuàng)的任務(wù)是保衛(wèi)地球,但它完全按字面意思解讀任務(wù)要求,認(rèn)為拯救地球的最佳方法就是毀滅人類。在很多方面,奧創(chuàng)就像典型的算法,完全按命令行事,不顧及其他問題。如果使用算法時不夠謹(jǐn)慎,我們就會遇上麻煩。


社交網(wǎng)站如果突然充斥騙點擊內(nèi)容,就可能是落入了類似陷阱。這些網(wǎng)站目標(biāo)明確,即提供對用戶最有吸引力的內(nèi)容。在設(shè)計算法時,網(wǎng)站管理者將這個目標(biāo)替換為:找到用戶最愿意點擊的內(nèi)容。這個指令邏輯上并不算錯,因為人們顯然會點擊感興趣的內(nèi)容。但由于只根據(jù)潛在點擊量篩選內(nèi)容,網(wǎng)站迅速充滿無聊和帶攻擊性的內(nèi)容,導(dǎo)致聲譽受損。人們會理解網(wǎng)站管理者希望“最大化優(yōu)質(zhì)內(nèi)容點擊量”,而非“即便損害質(zhì)量也要最大化點擊量”;相反,算法則只按字面意思執(zhí)行指令。


算法是個黑箱。在莎士比亞作品《愷撒大帝》(Julius Caesar)中,一名預(yù)言者警告愷撒:“當(dāng)心3月15日”。這句話意思明確:愷撒最好有所防范。但同時又讓人完全無法理解:當(dāng)心什么?為什么?愷撒對這個信息非常困惑,于是把預(yù)言者打發(fā)走,宣稱:“他是個夢囈者,我們走吧?!弊罱K,3月15日確實是愷撒大帝倒霉的日子,他在這天被刺。問題是預(yù)言者提供的是不完整信息,而且沒法猜到缺失的是什么,也不知道這條信息有多重要。


和莎翁筆下的預(yù)言者一樣,算法有時能非常準(zhǔn)確地預(yù)見未來,但不會告訴你事件背后的原因。算法可以通讀《紐約時報》文章,告訴你哪篇在Twitter上會火,但解釋不了人們?yōu)槭裁匆D(zhuǎn)發(fā);算法可以告訴你哪位員工最可能成功,但不能告訴你哪種特質(zhì)對成功最重要。


為更好地管理算法,認(rèn)識到上述兩項局限是第一步?,F(xiàn)在我們再看看還需要做什么。


明確所有目標(biāo)


每個人都有自己的目標(biāo)和計劃,但很少有人會不擇手段。為了某些未明言的軟性目標(biāo),我們會做出權(quán)衡取舍:例如為了明天的聲譽放棄一部分今天的利益,或為實現(xiàn)組織內(nèi)部平等付出短期代價。但算法只會一門心思追求給定目標(biāo)。因此在設(shè)計算法時,你必須明確想要達(dá)到的所有目標(biāo)。


如果你在意某個軟性目標(biāo),就要明確指出、清晰定義,并設(shè)定其在總體目標(biāo)中的權(quán)重。由于軟性目標(biāo)較難衡量,實施算法所得結(jié)論時要特別留意。


我們最近對軟性目標(biāo)的重要性有了切身體會。本文作者之一與美國西海岸某市政府合作,幫助其提升餐飲業(yè)督查效率。幾十年來,該市的做法基本是隨機抽查,并重點關(guān)照有違規(guī)經(jīng)營記錄的單位。不過,選擇督查哪些餐館,很適合交給算法決定。除違規(guī)歷史外,我們的算法發(fā)現(xiàn)了很多相關(guān)變量,幫助政府衛(wèi)生部門更易發(fā)現(xiàn)違規(guī)餐館,提高督查效率。


政府對此非常感興趣,希望采用算法。我們問對方有何問題或顧慮,一陣尷尬的沉默后,有人舉手?!拔也恢涝撛趺凑f,”她說,“但有個問題應(yīng)該討論一下?!彼嬖V我們,在有些人口密集的社區(qū),違規(guī)經(jīng)營更常見。這些社區(qū)低收入少數(shù)族裔比例較高,她不希望算法篩選出的餐館集中于這些社區(qū)。這涉及公平,即屬于軟性問題。我們的解決方法很簡單:設(shè)置各區(qū)域督查餐館數(shù)量上限。這樣做既能實現(xiàn)硬性目標(biāo),即找到最有可能違規(guī)的餐館,又照顧了軟性目標(biāo),即保證較落后區(qū)域得到公平對待。


為找到軟性目標(biāo),我們特別注意給每個人機會說出任何顧慮。我們發(fā)現(xiàn),人們經(jīng)常通過表達(dá)擔(dān)憂來提出軟性目標(biāo),所以明確征求意見能促進(jìn)開放和高質(zhì)量的討論。讓人們坦率表達(dá)觀點,把平時私下說的話擺在桌面上,這點很關(guān)鍵。這讓很多問題浮出水面,不過我們遇到最多的還是公平問題,以及敏感局面處理問題。


明確核心目標(biāo)和其他考量后,設(shè)計者可以讓算法做出權(quán)衡取舍。為此,設(shè)計者通常須列出多項目標(biāo),并按重要性排序。


盡量避免短視


一家受歡迎的快消品公司從中國低價采購,然而銷往美國。該公司運用算法預(yù)測哪些產(chǎn)品最好賣,銷量迅速提升。但良好勢頭只維持了幾個月,消費者開始要求退貨。


盡管算法未能成功預(yù)測消費者的反應(yīng),但驚人的高退貨率本可以預(yù)見到。公司當(dāng)然關(guān)注質(zhì)量,但在設(shè)計算法時,沒有明確將質(zhì)量設(shè)為影響消費者滿意度的重要因素,而過于關(guān)注銷量。調(diào)整后的新算法既能準(zhǔn)確預(yù)測產(chǎn)品銷售情況,同時也能預(yù)測產(chǎn)品的受歡迎程度和可持續(xù)度。公司現(xiàn)在推出的產(chǎn)品在亞馬遜等平臺上獲得極高評價,退貨率大幅下降。


這家公司最初設(shè)計算法時落入了常見陷阱:算法關(guān)注當(dāng)下掌握的數(shù)據(jù),而這些數(shù)據(jù)通常與短期結(jié)果相關(guān),這造成算法本身有短視傾向。在短期利益和長期成功及企業(yè)整體目標(biāo)間可能存在張力,這對于人類不言自明,對算法則不然,除非你明確告訴它。


解決這個問題的方法是,在設(shè)置目標(biāo)時明確定義長期目標(biāo)。而在按照算法的預(yù)測采取行動時,管理者也要考慮算法的建議是否符合長期目標(biāo)。


過于關(guān)注點擊量而導(dǎo)致內(nèi)容質(zhì)量低劣的網(wǎng)站,其采用的算法也有短視問題。算法根據(jù)當(dāng)下目標(biāo)(讓用戶點擊鏈接)推薦內(nèi)容,卻未能考慮更重要的長期目標(biāo),即用戶滿意度和黏性。


選用合適數(shù)據(jù)源


要選擇合適的數(shù)據(jù)源,應(yīng)注意以下兩點:


數(shù)據(jù)應(yīng)盡可能全面。企業(yè)常有的誤解,是把大數(shù)據(jù)看作“大量的數(shù)據(jù)”,例如從1萬名客戶擴展到100萬名。但這樣只理解對了一半。設(shè)想你把數(shù)據(jù)做成表格,每行對應(yīng)一名客戶,那么客戶人數(shù)即為圖表長度;而你掌握的每名客戶的情況,即每行中的數(shù)據(jù),決定了圖表寬度。雖然數(shù)據(jù)總量能夠提升預(yù)測準(zhǔn)確度,但數(shù)據(jù)寬度才能讓大數(shù)據(jù)發(fā)揮全部威力。做預(yù)測最關(guān)鍵的就是信息的全面性。事件的每個新細(xì)節(jié)都是一條線索,能夠補充已掌握的情報。文字記錄就是典型的“寬”數(shù)據(jù),每個字都可以成為線索。


數(shù)據(jù)多元性很重要。從上文可以推出,數(shù)據(jù)應(yīng)盡可能多元,即各個數(shù)據(jù)源相關(guān)度低。這能讓算法的預(yù)測能力再上臺階??梢园衙拷M數(shù)據(jù)看作一個朋友的推薦:如果朋友口味太相似,那么多幾個朋友推薦也不太有價值;反之,如果每個朋友視角不同,帶來的價值就大得多。


了解算法的局限


算法就是利用已有數(shù)據(jù)在稍有差異的情境中做預(yù)測,這些差異可能包括人員、時間等,對象事件也可能不同。本質(zhì)上,你在尋求把某項結(jié)論移植到另一個情境中。因此聰明的做法是,列出算法可能在新情境中失效的原因,并評估這些潛在原因。例如,某個算法根據(jù)外部網(wǎng)站評論和違規(guī)歷史,預(yù)測波士頓哪些餐館可能違反衛(wèi)生法規(guī)。而換到佛羅里達(dá)州的奧蘭多,該算法效果可能就沒那么好,因為那里天氣更熱,食品安全問題與波士頓有差別。


同樣要記住,相關(guān)性不等于因果性。假設(shè)某個算法預(yù)測,較短的Twitter發(fā)言比較長發(fā)言轉(zhuǎn)發(fā)率高。這絕不是說你應(yīng)該縮短Twitter發(fā)言:這只是一項預(yù)測,而非建議。這項預(yù)測成立,是因為較短的Twitter發(fā)言更可能具備很多其他特征,使之更易被轉(zhuǎn)發(fā),而僅僅縮短你的發(fā)言,并不必然滿足那些條件,所以不一定能得到更多轉(zhuǎn)發(fā)。


eBay曾多年通過谷歌打廣告,發(fā)現(xiàn)看到廣告的人比沒看到的人更可能消費。但eBay忽略的是,這些展示次數(shù)達(dá)數(shù)百萬的廣告,并不必然是人們訪問其網(wǎng)站的原因。畢竟,這些廣告針對的本來就是eBay用戶。為區(qū)分相關(guān)性和因果性,eBay進(jìn)行大規(guī)模試驗,隨機選擇廣告展示對象,結(jié)果證明大多數(shù)情況下廣告不起作用,因為看到廣告的人已經(jīng)知道eBay,無論如何都會在上面消費。


算法有很強預(yù)測能力。但在做因果推論時,你必須多加留意,因為算法不能取代對照試驗。不過在有些方面,算法能取得驚人成功:發(fā)現(xiàn)人類觀察不到的細(xì)微規(guī)律,并利用這些規(guī)律形成準(zhǔn)確洞察,助力決策。留給我們的課題是:了解算法的風(fēng)險和局限,并通過高效管理,釋放它的巨大潛力。

深圳網(wǎng)站建設(shè)-本文轉(zhuǎn)載自網(wǎng)絡(luò),版權(quán)歸原作者所有


文章轉(zhuǎn)載請保留網(wǎng)址:http://16qt59sf.cn/news/industry/2089.html

掃碼添加微信
159 8667 8737
24小時電話

返回頂部