智能OPPO手機價格聯盟

預測暢銷書的算法可以精準到99.9%嗎?

百道網2020-11-19 14:54:16
美國出了本書,聲稱研發了能夠預測暢銷書的算法,準確率高達80%。這著實讓出版行業和創作圈興奮,但很快技術專家就出來潑冷水了,這種算法并不像人們想的那么神通,所謂80%的準確度要從統計學的專業角度來解讀,結果就不那么令人欣喜了。





圣馬丁出版社(St.?Martin?Press)9月就要出版的《暢銷書密碼:暢銷小說解析》(The?Bestseller?Code:Anatomy?of?the ?Blockbuster ?Novel?)一書正在獲得越來越多的關注。一個人真能預測哪種書會成為紐約時報暢銷書嗎?很多出版行業人士和作者們為書中所聲明的暢銷書預測算法而興奮。


因為有出版技術以及讀者分析方面的經驗,好幾個記者聯系我,詢問對于這本書的看法。這讓我對這本書產生了閱讀興趣,而且我有幸收到了圣馬丁出版社寄來的樣書。


首先這本書可讀性很強。我會把它作為消遣或學習讀物推薦給所有對圖書這一行業感興趣的人。作者就是要寫給大眾看的,所以語言平易,盡可能避免使用行業和學術用語,列舉了很多有關作者、讀者的掌故和事例。


書里所指的“密碼”是把最前沿的機器學習技術應用于出版業而發明的算法,不過作者試圖盡最大可能簡化這種計算機背景。書中并沒有提“大數據”或人工智能,只是簡單描述了“黑盒子”是做什么的,為想要了解更多黑盒子內部工作方式的讀者提供參考。


作者提到“這種算法可以預測一本書是否會成為暢銷書,準確率為80%”,在采訪過程中我感覺很多記者都對這段表述產生了誤解,他們是這樣理解的:“如果今年《紐約時報》的暢銷書有500本,那么這種算法就可以生成這500本書的書單,其中有400最終會真的成為暢銷書。”事實上,準確率80%不是這個意思,誤解之處在于“生成500本書的書單”。


如果了解一點統計學知識的話能更好地理解這段話。有關80%的準確度作者是這樣描述的:


如果有50本真正的暢銷書,算法能夠從中確認40本(80%),但會把另外10本(20%)“錯誤地”辨別為不暢銷(“否定”結果)。這10本書就屬于統計學中所說的“漏報”(false?negatives)。


如果用算法來辨別50本非暢銷書,同樣其中40本(80%)會被確認不是暢銷書,其他10本(20%)會被算法“錯誤地”歸類為是暢銷書(“肯定”結果),但實際上它們不是。因而,這10本被錯認為暢銷的書就是統計學中所指的“誤報”(false?positives)。


我們可以設想另外一種情境。假設在一家巴諾超級店里,書架上有20萬本整齊擺放的書,其中“《紐約時報》新舊暢銷書”區有1000本。


這時一群特朗普支持者闖入書店,把所有的書都扔到地上,以抗議特朗普的《交易的藝術》沒有被陳列在暢銷書區。這些人對閱讀并無興趣,因此離開的時候沒有帶走任何一本,所以現在20萬本書雜亂地散落在地板上。


巴諾派一位實習生把暢銷書區的1000本書重新擺好,但是實習生并不知道哪些書才算暢銷書,因此他決定使用這種神奇的新算法。


現在他要用這種算法來檢測所有20萬本書。當檢測到那1000本暢銷書時,算法正確地識別出了800本,但把另外200本歸入非暢銷書了。


有意思的事情來了。在分析剩下的199000本書時,算法認定其中80%,也就是159200本不是暢銷書,剩余的20%被“錯誤地”歸為暢銷書,那可是整整39800本。也就是說,實習生最終用算法把40600本書(39800+800)指認為《紐約時報》暢銷書。他發現的不只是他要找的那1000本書,而是“漏掉”了200本真正暢銷書的398?00本偽暢銷書。這才是《暢銷書密碼》中說的80%準確度的含義。


當應用于大容量樣本——里面很多非暢銷書——時,算法會產生大量誤報。


但它的確發揮了作用。鑒于最初的20萬本書里,只有0.5%是暢銷書(1000本),在新的包含39800本書的小樣本里,有2%的暢銷書(800本),這樣暢銷書的“濃度”(enrichment)提升了4倍,但仍有200本暢銷書被漏掉,因為算法并不是百分百準確的。


現在,我們換種玩法。假設實習生偷懶,把算法最先辨認為暢銷書的1000本擺到了書架上。根據剛才提到的濃度反推,我們知道在實習生最先選擇的這1000本書里,只有2%會是暢銷書。因此,重新擺放后的“暢銷書區”里幾乎所有的書都不是暢銷書。甚至有0.005%的概率,特朗普的書會出現在這個位置。


這樣看的話,這種算法聽起來也沒那么神,但這就是80%的準確率所意味的結果。考慮到每年有100萬種新書出版,所謂的“暢銷書”算法并不能為出版業帶來突飛猛進的變化。雖然它為如何辨別暢銷書提供了一種新的角度,但并不能因此取代編輯的位置。


機器正變得越來越聰明,機器學習能力不斷提升,人工智能也變得越來越智能。如果算法的準確度提升到99.9%又會怎么樣呢?到那時候,實習生可以從隨機散落在地板上的1000本暢銷書里準確地識別出999本,而只有1本的遺漏。而在檢測剩余的199000本書時,也只會產生199本的“誤報”。


這個結果聽起來很讓人振奮,但人類的品味和潮流太難預知,算法要達到99.9%的準確度還有很長一段路要走。出版業還是個帶點兒博彩性質的行業,不過“中獎”的幾率是可以通過優質數據和算法獲得提升的。采集優質數據意味著要理解人們的閱讀方式,以及他們會在什么時候推薦圖書,而不是僅僅依據銷售數據或一本書在暢銷榜單上的位置來判定成功與否。


作者:安德魯·隆伯格(Andrew?Rhomberg),技術公司Jellybooks創始人,該公司致力于收集、分析讀者信息,專注于為作者、代理商和出版商提供圖書營銷、銷售和發現工具。


韓玉 譯


——end——


(本文編輯 晨瑾)


北京快乐8中奖规则 体彩江苏7位数预测 (^ω^)MG艺伎故事_电子游戏 江西快33位走势图 (^ω^)MG板球明星登陆 22选5河南最新开奖i 深圳风采中奖规则 (*^▽^*)MG富贵王国奖金赔率 快慢高手一波中特 (★^O^★)MG幸运盖尔登陆 实力单双中特网 (★^O^★)MG五骑士免费下载 一波中特规定 东方6+1基本走势图 海南高频彩 (^ω^)MG富裕人生在线客服 (^ω^)MG旋转大战_电子游戏