國(guó)外媒體Slate刊文指出,“年夜數(shù)據(jù)(Big Data)”一詞曾經(jīng)變得沒(méi)有以往那末紅火了,為何會(huì)如許呢?“年夜數(shù)據(jù)”的成績(jī)其實(shí)不在于數(shù)據(jù)或許年夜數(shù)據(jù)自己很蹩腳,而是在于自覺(jué)留戀數(shù)據(jù),不加批評(píng)地應(yīng)用,那會(huì)激發(fā)災(zāi)害。數(shù)據(jù)也紛歧定完整反應(yīng)你想要懂得的工作的現(xiàn)實(shí)情形。
以下是文章重要內(nèi)容:
5年前——2012年2月——《紐約時(shí)報(bào)》刊文高呼人類(lèi)的一個(gè)新紀(jì)元的到來(lái):“年夜數(shù)據(jù)時(shí)期”。
該文章告知我們,社會(huì)將開(kāi)端產(chǎn)生一場(chǎng)反動(dòng),在這場(chǎng)反動(dòng)中,海量數(shù)據(jù)的搜集與剖析將會(huì)轉(zhuǎn)變?nèi)藗兩牡暮?jiǎn)直每個(gè)方面。
數(shù)據(jù)剖析不再局限于電子數(shù)據(jù)表和回歸剖析:超等盤(pán)算的到來(lái),隨同著可連續(xù)記載數(shù)據(jù)并將數(shù)據(jù)傳送到云真?zhèn)€聯(lián)網(wǎng)傳感器的賡續(xù)普及,意味著邁克爾·劉易斯(Michael Lewis)2003年的棒球書(shū)本《Moneyball》所描寫(xiě)的那種先輩數(shù)據(jù)剖析無(wú)望被運(yùn)用于各行各業(yè),從貿(mào)易到學(xué)術(shù),再到醫(yī)療和兩性關(guān)系。
不只如斯,高真?zhèn)€數(shù)據(jù)剖析軟件還有助于判定完整意想不到的相干性,好比存款方用盡額度和他債權(quán)背約的能夠性之間的關(guān)系。這必將將會(huì)催生會(huì)轉(zhuǎn)變我們思慮簡(jiǎn)直一切事物的新鮮看法。
《紐約時(shí)報(bào)》其實(shí)不是第一個(gè)得出這一結(jié)論的企業(yè)機(jī)構(gòu):它的文章援用了麥肯錫征詢(xún)公司2011年的一份嚴(yán)重申報(bào),其不雅點(diǎn)也獲得了2012年瑞士達(dá)沃斯世界經(jīng)濟(jì)服裝論壇t.vhao.net題為“年夜數(shù)據(jù),年夜影響”的官方申報(bào)的支撐。但這類(lèi)宣言似乎就是標(biāo)記年夜數(shù)據(jù)時(shí)期開(kāi)啟的里程碑。
在以后的一個(gè)月里,巴拉克·奧巴馬(Barack Obama)的白宮成了一個(gè)2億美元的國(guó)度年夜數(shù)據(jù)項(xiàng)目,猖狂高潮隨即襲來(lái):學(xué)術(shù)機(jī)構(gòu)、非盈利組織、當(dāng)局和企業(yè)都爭(zhēng)相去探討“年夜數(shù)據(jù)”畢竟是甚么,他們可以若何好好應(yīng)用它。
現(xiàn)實(shí)證實(shí),這類(lèi)猖狂沒(méi)有連續(xù)很長(zhǎng)時(shí)光。5年后,數(shù)據(jù)在我們的平常生涯中飾演主要許多的腳色,但年夜數(shù)據(jù)一詞曾經(jīng)不再風(fēng)行——乃至讓人認(rèn)為有些憎惡。我們被承諾的那場(chǎng)反動(dòng)畢竟產(chǎn)生了甚么呢?數(shù)據(jù)、剖析技巧和算法如今又在往甚么偏向成長(zhǎng)呢?這些成績(jī)值得回頭去思慮。
科技征詢(xún)公司Gartner在它2015年相當(dāng)著名的“技巧成熟度曲線(xiàn)”申報(bào)中不再應(yīng)用“年夜數(shù)據(jù)”一次,以后該詞再也沒(méi)有回歸。該公司廓清道,這其實(shí)不是由于企業(yè)廢棄發(fā)掘巨量數(shù)據(jù)集取得洞見(jiàn)的概念。而是由于那種做法曾經(jīng)變得廣為風(fēng)行,以致于它不再相符“新興技巧”的界說(shuō)。
年夜數(shù)據(jù)贊助驅(qū)動(dòng)我們的靜態(tài)新聞、Netflix視頻推舉、主動(dòng)化股票生意業(yè)務(wù)、主動(dòng)校訂功效、安康跟蹤裝備等不可勝數(shù)的對(duì)象面前的算法。但我們?nèi)缃癫荒暌箲?yīng)用年夜數(shù)據(jù)一詞了——我們只是將它稱(chēng)作數(shù)據(jù)。我們開(kāi)端將數(shù)據(jù)集可以或許包括有數(shù)的不雅察成果,先輩軟件可以或許檢測(cè)傍邊的趨向當(dāng)作天經(jīng)地義的工作。
年夜數(shù)據(jù)激發(fā)的嚴(yán)重毛病
固然該詞仍有被應(yīng)用,但它更多地帶有一種欠好的意味,好比凱茜·奧尼爾(Cathy O’Neil)2016年的著作《數(shù)學(xué)殺傷性兵器》(Weapons of Math Destruction)或許弗蘭克·帕斯夸里(Frank Pasquale)2015年的《黑箱社會(huì)》(The Black Box Society)。急忙履行和運(yùn)用年夜數(shù)據(jù),即停止所謂的“數(shù)據(jù)驅(qū)動(dòng)型決議計(jì)劃”,帶來(lái)了嚴(yán)重的毛病。
有的毛病相當(dāng)引人注視:塔吉特(Target)曾向一名沒(méi)跟任何人說(shuō)過(guò)本身懷孕的少女的家庭派送嬰兒用品優(yōu)惠券;Pinterest曾祝賀一名獨(dú)身只身女性行將娶親;谷歌照片(Google Photos)也曾激發(fā)軒然年夜波,該公司被年夜肆吹噓的AI將黑人誤認(rèn)為是年夜猩猩,緣由是它的練習(xí)數(shù)據(jù)不敷多元化。(值得指出的是,至多在該事宜中,“年夜數(shù)據(jù)”還不敷年夜。)
其它的毛病更加奧妙,也許也加倍陰險(xiǎn)。傍邊包含奧尼爾在她的主要著作中記載的那些不通明的數(shù)據(jù)驅(qū)動(dòng)式軌制性模子:被法庭用來(lái)判決罪犯的、帶有種族成見(jiàn)的累犯模子,或許那些基于可疑的考試分?jǐn)?shù)數(shù)據(jù)辭退備受敬愛(ài)的教員的模子。年夜數(shù)據(jù)失足的新案例可謂層見(jiàn)疊出——好比Facebook算法顯著贊助俄羅斯經(jīng)由過(guò)程針對(duì)性的假消息影響美國(guó)總統(tǒng)年夜選的成果。
自覺(jué)留戀數(shù)據(jù)與誤用
“年夜數(shù)據(jù)”的成績(jī)其實(shí)不在于數(shù)據(jù)自己很蹩腳,也不在于年夜數(shù)據(jù)自己很蹩腳:謹(jǐn)嚴(yán)運(yùn)用的話(huà),年夜型數(shù)據(jù)集照樣可以或許提醒其它門(mén)路發(fā)明不了的主要趨向。正如茱莉婭·羅斯·韋斯特(Julia Rose West)在比來(lái)給Slate撰寫(xiě)的文章里所說(shuō)的,自覺(jué)留戀數(shù)據(jù),不加批評(píng)地應(yīng)用,常常招致災(zāi)害的產(chǎn)生。
從實(shí)質(zhì)來(lái)看,年夜數(shù)據(jù)不輕易解讀。當(dāng)你搜集數(shù)十億個(gè)數(shù)據(jù)點(diǎn)的時(shí)刻——一個(gè)網(wǎng)站上的點(diǎn)擊或許光標(biāo)地位數(shù)據(jù);年夜型公共空間十字轉(zhuǎn)門(mén)的遷移轉(zhuǎn)變次數(shù);對(duì)世界各地每一個(gè)小時(shí)的風(fēng)速不雅察;推文——任何給定的數(shù)據(jù)點(diǎn)的起源會(huì)變得隱約。這反過(guò)去意味著,看似高等其余趨向能夠只是數(shù)據(jù)成績(jī)或許辦法形成的產(chǎn)品。但或許更嚴(yán)重的成績(jī)是,你所具有的數(shù)據(jù)平日只是你真正想要曉得的器械的一個(gè)目標(biāo)。年夜數(shù)據(jù)不克不及處理誰(shuí)人成績(jī)——它反而縮小了誰(shuí)人成績(jī)。
例如,平易近意查詢(xún)拜訪(fǎng)被普遍用作權(quán)衡人們?cè)谶x舉中的投票意向的目標(biāo)。但是,從湯姆·布拉德利(Tom Bradley)1982年在加州州長(zhǎng)競(jìng)選中戰(zhàn)敗,到英國(guó)脫歐公投,再到特朗普確當(dāng)選,數(shù)十年來(lái)成果出人意料的選舉幾回再三提示我們,平易近意考試和人們現(xiàn)實(shí)的投票意向之間其實(shí)不老是完整分歧。Facebook以往重要經(jīng)由過(guò)程用戶(hù)有無(wú)點(diǎn)贊來(lái)估計(jì)他們對(duì)特定的帖子能否有興致。但跟著經(jīng)由算法優(yōu)化的靜態(tài)信息開(kāi)端年夜量涌現(xiàn)題目釣餌、點(diǎn)贊釣餌和嬰兒照片——招致用戶(hù)滿(mǎn)足度顯著降低——該公司的高層逐步認(rèn)識(shí)到,“點(diǎn)贊”這事其實(shí)不必定意味著用戶(hù)真的愛(ài)好特定的內(nèi)容。
目標(biāo)和你現(xiàn)實(shí)上要估計(jì)的器械之間的差異越年夜,過(guò)于倚重它就越風(fēng)險(xiǎn)。以來(lái)自?shī)W尼爾的著作的前述例子為例:學(xué)區(qū)應(yīng)用數(shù)學(xué)模子來(lái)讓教員的表示評(píng)價(jià)與先生的考試分?jǐn)?shù)掛鉤。先生考試分?jǐn)?shù)與不在教員掌握規(guī)模內(nèi)的有數(shù)主要身分有關(guān)。年夜數(shù)據(jù)的個(gè)中一個(gè)優(yōu)勢(shì)在于,即使是在異常喧鬧的數(shù)據(jù)集里,你也能夠發(fā)明成心義的聯(lián)系關(guān)系性,這重要得益于數(shù)據(jù)量年夜和實(shí)際上可以或許掌握混淆變量的壯大軟件算法。
例如,奧尼爾描寫(xiě)的誰(shuí)人模子,應(yīng)用來(lái)自多個(gè)學(xué)區(qū)和系統(tǒng)的先生的浩瀚生齒構(gòu)造方面的相干性,來(lái)生成考試分?jǐn)?shù)的“預(yù)期”數(shù)據(jù)集,再拿它們與先生的現(xiàn)實(shí)成就停止比擬。(因?yàn)檫@個(gè)緣由,奧尼爾以為它是“年夜數(shù)據(jù)”例子,雖然誰(shuí)人數(shù)據(jù)集其實(shí)不夠年夜,沒(méi)到達(dá)該詞的一些技巧界說(shuō)的門(mén)坎。)
試想一下,如許的體系被運(yùn)用在統(tǒng)一所黌舍外面——拿每一個(gè)年級(jí)的教員與其它年級(jí)的教員比擬。要不是年夜數(shù)據(jù)的魔法,先生特定學(xué)年異常的考試分?jǐn)?shù)會(huì)異常惹眼。任何評(píng)價(jià)那些考試的聰慧人,都不會(huì)以為它們可以或許很好地反應(yīng)先生的才能,更不消說(shuō)教他們的先生了。
而前華盛頓特區(qū)教導(dǎo)局長(zhǎng)李洋姬(Michelle Rhee)實(shí)施的體系比擬之下更不通明。由于數(shù)據(jù)集比擬年夜,而不是小,它必需要由第三方的征詢(xún)公司應(yīng)用專(zhuān)門(mén)的數(shù)學(xué)模子來(lái)停止剖析解讀。這可帶來(lái)一種客不雅性,但它也消除失落了周密質(zhì)問(wèn)任何給定的信息輸入,來(lái)看看該模子詳細(xì)若何得出它的結(jié)論的能夠性。
例如,奧尼爾剖析道,有的教員獲得低評(píng)分,能夠不是由于他們的先生表示蹩腳,而是由于那些先生之前一年表示得出奇地好——能夠由于上面誰(shuí)人年級(jí)的教員謊稱(chēng)那些先生表示很好,以晉升他本身的教授教養(yǎng)評(píng)分。但關(guān)于那種能夠性,黌舍高層并沒(méi)甚么興致去深究那種模子的機(jī)制來(lái)予以證明。
參加更多目標(biāo)
其實(shí)不是說(shuō)先生考試分?jǐn)?shù)、平易近意查詢(xún)拜訪(fǎng)、內(nèi)容排名算法或許累犯猜測(cè)模子一切都須要疏忽。除停用數(shù)據(jù)和回歸到奇聞?shì)W事和直覺(jué)斷定之外,至多有兩種可行的辦法來(lái)處置數(shù)據(jù)集和你想要估計(jì)或許估計(jì)的實(shí)際世界成果之間不完整相干帶來(lái)的成績(jī)。
個(gè)中一種辦法是參加更多的目標(biāo)數(shù)據(jù)。Facebook采取這類(lèi)做法已有很長(zhǎng)一段時(shí)光。在懂得到用戶(hù)點(diǎn)贊不克不及完整反應(yīng)他們?cè)陟o態(tài)新聞傍邊現(xiàn)實(shí)想要看到的器械今后,該公司給它的模子參加了更多的目標(biāo)。它開(kāi)端丈量其它的器械,好比用戶(hù)看一篇帖子的時(shí)長(zhǎng),他們閱讀其點(diǎn)擊的文章的時(shí)光,他們是在看內(nèi)容之前照樣以后點(diǎn)贊。
Facebook的工程師盡量地去衡量和優(yōu)化那些目標(biāo),但他們發(fā)明用戶(hù)年夜體上照樣對(duì)靜態(tài)新聞里出現(xiàn)的內(nèi)容不滿(mǎn)足。是以,該公司進(jìn)一步增長(zhǎng)丈量目標(biāo):它開(kāi)端睜開(kāi)年夜規(guī)模的用戶(hù)查詢(xún)拜訪(fǎng),增長(zhǎng)新的反響臉色讓用戶(hù)可以轉(zhuǎn)達(dá)加倍纖細(xì)的感觸感染,并開(kāi)端應(yīng)用AI來(lái)按頁(yè)面和按出書(shū)者檢測(cè)帖子的題目黨說(shuō)話(huà)。該社交收集曉得這些目標(biāo)沒(méi)有一個(gè)是完善的。然則,經(jīng)由過(guò)程增長(zhǎng)更多的目標(biāo),它實(shí)際上可以或許加倍接近于構(gòu)成可給用戶(hù)展現(xiàn)他們最想要看到的帖子的算法。
這類(lèi)做法的一個(gè)弊病在于,它難度年夜,本錢(qián)昂揚(yáng)。另外一個(gè)弊病在于,你的模子參加的變量越多,它的辦法就會(huì)變得越撲朔迷離,越不通明,越難以懂得。這是帕斯夸里在《黑箱社會(huì)》里論述的成績(jī)的一部門(mén)。算法再先輩,所應(yīng)用的數(shù)據(jù)集再好,它也有能夠會(huì)失足——而它失足的時(shí)刻,診斷成績(jī)幾無(wú)能夠。“過(guò)度擬合”和自覺(jué)信任也會(huì)帶來(lái)風(fēng)險(xiǎn):你的模子越先輩,它看上去與你過(guò)往一切的不雅察越吻合,你對(duì)它越有信念,它終究讓你狼奔豕突的風(fēng)險(xiǎn)就越年夜。(想一想次貸危機(jī)、選舉猜測(cè)模子和Zynga吧。)
小數(shù)據(jù)
關(guān)于源自信數(shù)據(jù)集成見(jiàn)的成績(jī),另外一個(gè)潛伏的應(yīng)對(duì)辦法是部門(mén)人所說(shuō)的“小數(shù)據(jù)”。小數(shù)據(jù)是指,數(shù)據(jù)集足夠簡(jiǎn)略到可以直接由人來(lái)剖析息爭(zhēng)讀,不須要乞助于超等盤(pán)算機(jī)或許Hadoop功課。跟“慢餐”一樣,該詞也是由于其相不和的風(fēng)行而發(fā)生。
丹麥作家、營(yíng)銷(xiāo)參謀馬丁·林德斯特羅姆(Martin Lindstrom)在他2016年的著作《小數(shù)據(jù):提醒年夜趨向的渺小線(xiàn)索》中談到了那種做法。例如,丹麥著名玩具廠(chǎng)商樂(lè)高(Lego)根據(jù)年夜量宣稱(chēng)千禧一代須要即時(shí)知足,更輕易被比擬輕松的項(xiàng)目吸引的研討,轉(zhuǎn)向供給更年夜的積木,還在1990年月末和2000年月初打造主題公園和視頻游戲。這類(lèi)轉(zhuǎn)型沒(méi)有見(jiàn)效。
那種由數(shù)據(jù)驅(qū)動(dòng)的范式最初被它的營(yíng)銷(xiāo)者2004年停止的一項(xiàng)規(guī)模小很多的人類(lèi)學(xué)查詢(xún)拜訪(fǎng)推翻。它的營(yíng)銷(xiāo)者逐一訊問(wèn)小孩他們最珍重甚么物品,發(fā)明他們最?lèi)?ài)好也最忠于可以讓顯示出其苦苦練就的才能的產(chǎn)物——好比一雙因數(shù)百個(gè)小時(shí)的滑板演習(xí)而磨損的舊活動(dòng)鞋。據(jù)林德斯特羅姆(他曾擔(dān)負(fù)樂(lè)高的參謀,本身也很愛(ài)好玩樂(lè)高積木)說(shuō),樂(lè)高從新專(zhuān)注于供給它本來(lái)的小積木,由此完成中興。
在許多方面,亞馬遜是可充足解釋年夜數(shù)據(jù)威力的典范例子。它關(guān)于其數(shù)以?xún)|計(jì)的顧客的購(gòu)置和商品閱讀習(xí)氣的數(shù)據(jù),贊助它成為全球最勝利的批發(fā)商之一。不外,布拉德·斯通(Brad Stone)在他的書(shū)《萬(wàn)貨市肆》(Everything Store)中稱(chēng),該公司的CEO杰夫·貝索斯(Jeff Bezos)有個(gè)很風(fēng)趣(關(guān)于他的員工來(lái)講則很恐怖)的方法來(lái)均衡一切的那些客不雅數(shù)據(jù)剖析。他時(shí)不時(shí)會(huì)將顧客發(fā)來(lái)的贊揚(yáng)郵件轉(zhuǎn)發(fā)給他的高層團(tuán)隊(duì),請(qǐng)求他們不只僅要處理贊揚(yáng)的成績(jī),還要完全查詢(xún)拜訪(fǎng)清晰它產(chǎn)生的緣由,并撰寫(xiě)一份說(shuō)明申報(bào)。
這解釋?zhuān)愃魉共恢粌H懂得年夜數(shù)據(jù)晉升各個(gè)體系運(yùn)轉(zhuǎn)效力的威力,還曉得年夜數(shù)據(jù)也要能夠會(huì)掩飾沒(méi)有獲得有用估計(jì)的特定成績(jī)的產(chǎn)生緣由和機(jī)制。在依據(jù)你曉得該若何丈量的工作做出決議計(jì)劃的時(shí)刻,平安的做法是確保也無(wú)機(jī)制讓你可以或許曉得你不曉得該若何估計(jì)的工作。“成績(jī)老是,你沒(méi)有搜集甚么數(shù)據(jù)?”奧尼爾在接收德律風(fēng)采訪(fǎng)時(shí)表現(xiàn),“甚么數(shù)據(jù)是你看不到的?”
將來(lái)瞻望
跟著“年夜數(shù)據(jù)”不再被當(dāng)作熱詞,我們有愿望逐步對(duì)數(shù)據(jù)的威力和圈套構(gòu)成加倍過(guò)細(xì)入微的懂得。回頭來(lái)看,搜集數(shù)據(jù)的傳感器和剖析數(shù)據(jù)的超等盤(pán)算機(jī)一會(huì)兒年夜量出現(xiàn),激發(fā)一股淘金熱,和許多時(shí)刻錯(cuò)掉這一切的恐怖會(huì)壓過(guò)你的謹(jǐn)慎情感,都是可以懂得的。與此同時(shí),必定會(huì)有沉思熟慮的人開(kāi)端惹起我們對(duì)這些情形的留意,年夜數(shù)據(jù)也弗成防止地會(huì)帶來(lái)反后果。
不外,年夜數(shù)據(jù)誤用帶來(lái)的威逼,不會(huì)僅僅由于我們不再用畏敬的口氣來(lái)講誰(shuí)人詞而消逝。看看Gartner 2017年技巧成熟度曲線(xiàn)的巔峰,你會(huì)看到像機(jī)械進(jìn)修和深度進(jìn)修如許的詞,和代表這些盤(pán)算技巧的實(shí)際運(yùn)用的無(wú)人駕駛汽車(chē)、虛擬助手等相干的詞。這些是基于與年夜數(shù)據(jù)一樣的基本的新“棚架層”,它們?nèi)家栏接谀暌箶?shù)據(jù)。它們?cè)?jīng)走在通向真實(shí)的沖破的途徑上——但可以確定的是,它們也會(huì)招致嚴(yán)重的毛病。
