百度外賣風控負責人:大數據如何讓黑產無處遁形?

.. 做得一手好川菜的老徐,終於在 40歲時擁有了自己的小飯館,從打工仔搖身一變成小老闆,經過20年的打拚,北京這座城市終於讓他有了一點歸屬感。

之所以敢下決心自己干,還要得益於這兩年做的風生水起的外賣業,在用餐高峰期,這個看起來不足20平米的小飯館流水非常可觀,門口總是擠滿的各路外賣小哥的電動車,有時店裡的外賣小哥比用餐顧客還多。

這也不難理解,由於老徐的餐館在幾個外賣平台都有滿 50 減 30 的優惠,點外賣要比來店裡吃划算的多,老徐看了賬目,心中盤算,辛苦一年基本就能收回成本了。

直到前不久,他接到一個陌生的電話,對方聲稱可以讓他有一個快速賺錢的方法,老徐動心了。

商戶、騎士、買家、推廣BD 可能是同一人

電話那頭的陌生人是通過外賣平台的「商家信息」得到老徐的聯繫方式,他介紹商家在外賣平台上其實有一些空子可鑽,而且已經有其他的商家在不付出任何成本的情況下,賺了不少錢。

對方所說的空子,其實就是各大外賣平台「燒錢火拚」的補貼政策。

按照正常情況來說,買家在平台上選擇自己喜歡的商家和菜品進行下單,商家收到下單請求后確認,這時騎手會收到派送任務,把餐取過來之後交給用戶。

那在這個過程中如何來鑽空子?

對方以老徐飯館的「滿 50 減 30 」為例,當買家選夠 50 塊錢的菜品之後,不考慮包裝費和配送費,只需要支付20塊,但是商家依然能收到50塊,這30塊就是平台補貼給商家的。

那現在如果商家找一個人偽裝成買家,下單之後商家不需要出餐,從50塊中抽去20塊給「假買家」,就可以不花任何成本的賺到補貼的30塊,這時商家也可以從中再分給「假買家」一些錢,實現雙贏!

那如果騎士跑來取餐怎麼辦?

對方等的就是這個問題!

「你可以跟騎士說買家自己取走了,或者更方便的是,自己找騎士偽裝成買家直接下單,這樣騎士不僅可以白賺配送費,還可以拿到補貼分成」!

聽到這裡,老徐醍醐灌頂,原來商家、騎士、買家可以是同一個人!

對方告訴老徐,更重要的角色其實是「BD」,即負責外賣平台推廣的人員,他們負責把商戶和買家用戶吸引到自家的外賣平台中,比如商戶如果入駐到某個外賣平台,是需要把資料提交給BD審核,於此同時,BD還能左右滿減的額度,如果能認識內部的BD,說不定還能滿 50 減 40!

老徐一盤算,如果 BD 開一家飯館,然後自己來同時充當商家、買家和騎士,就可以妥妥的無成本賺取補貼,還可以給自己刷銷量,寫好評……

-----講正事分割線-----

上面的劇情雷鋒網改編自百度外賣風控技術負責人王永會的一場演講,其中的每一個環節都在現實中真正發生過。

宅宅終於知道為什麼某些商家的飯巨難吃,但銷量和好評卻很高的原因了!長此以往,可以想象會為外賣行業造成怎樣的傷害。

雷鋒網發現,目前騙取平台補貼和刷單的黑產從業者已經布下了比較完整的產業鏈,除了上面提到關係複雜的各路角色,還有提供專業「裝備」的黑產從業者,他們通過提供的海量手機卡、刷機軟件、接碼平台等,模擬出正常的用戶來上平台「薅羊毛」,有些黑客甚至以出賣教程而獲利不少。

面對各路黑產從業者所組成的產業鏈條,如何構建嚴密的風控體系就成為擺在王永會和團隊面前的難題。

在演講現場,王永會介紹了百度外賣的多角色的健康度模型。

百度外賣風控最主要的特點,是覆蓋了多個角色和滲透到業務各個角落的健康度體系,這個健康度體系包含很多,像商戶健康度,用戶健康度,還有騎士、BD、訂單、平台等等。重點是如何把結果應用到整個業務產品線的各個鏈條裡面去,這樣才能形成一個完整的生態。比如我們把商戶的結果同步到推薦系統,同步到檢索系統,這樣的如果商家有一定問題,就會在你的推薦排名上提現出來。還有用戶的健康度,會同步到相關的營銷中。

換句話說,檢測出異常行為的商家,就休想再獲得好的推薦位置。用戶出現異常行為,對不起,優惠沒有了!

那風控體系究竟是如何揪出這些異常的用戶和商戶的?

針對用戶:如何揪出誰在刷單?

不知攻,焉知防。

先來看「機刷」的套路。

由於各大外賣平台對於新用戶都會有一個力度比較大的優惠,所以黑產從業者也盯上了這塊「肥肉」。

我們通常在外賣平台下單時,需要註冊賬號,一般都是手機號,如果你已經用自己的手機號下過訂單了,再想刷新用戶怎麼辦?

有需求就有市場,一個名為「接碼平台」的系統應運而生,「羊毛黨」在這裡不僅可以獲得一個手機號,還可以得到平台返回的驗證碼。

但你就一部手機,平台也會檢測到設備是不是出現過。

這時,一個名為「手機模擬器」的軟件就出現了,它可以生成一份新的手機參數,企圖繞過對設備指紋的檢測。

再來看看「人刷」的套路。

這是某個QQ群中「羊頭」的指示:

打開××外賣,定位徐州人家小區,搜索柱子把子肉,隨便點一份餐,大概20元左右,收貨地址寫:徐州人家5-1-201,必須選擇貨到付款,20分鐘后確認收貨,必須5分好評,好評不用很麻煩,比如很優惠、好好吃、划算……好評截圖給我就可以結款,不用墊付一毛錢,收藏店鋪。

如果「機刷」還得有找模擬器、繞過設備指紋等步驟,人刷直接面對的一個個真實的人,面對這些大量的QQ群和微信群,又該如何識別這些團伙?

王永會對雷鋒網介紹,對於用戶的風控,系統會從設備指紋、規則引擎、機器學習模型等三個層次分級分析,層層過濾。

用戶的風險控制一共有三道防線,第一個是設備惟一性,設備指紋主要就是解決機刷的手段,我們目前已經研發了超過38條以上的多維簽發的設備,來繞過刷單軟件。同時我們會做一些刷新軟件的識別,識別手機上這個東西是不是刷新軟件,是不是採用一些模擬器(在PC上裝一個模擬器,就可以生成像手機一樣的東西)。


第二道防線就是大家常見的叫規則引擎的方式,這個業界也是非常主流的做法,其實規則的方非常有效,和監控搭配可以非常高效、靈活的做一些事情,尤其是突發事件的應對。


其實前面兩個防線可以把機刷和少部分的人刷控制住,第三道防線就是採用機器學習的方式,我們把用戶的行為研究,像他的瀏覽行為和操作行為,訂單分析,用戶畫像相關的,結合用戶在前兩道防線上留下的痕迹,來獲取樣本,進行特徵訓練,評估模型。

如何識別一個QQ群中的多個「羊毛黨」?王永會用「齊步走」來解釋如何根據行為來構造用戶關係網絡。

其實這些人在群里都是有組織有紀律的,步調往往一致,可以通過這種行為來構建用戶的關係網絡,根據大小,以及牽扯的其他的業務屬性,量化它的風險,從而籌建一個健康度。

比如中間的小圖,圓圈表示用戶,方塊表示商家,為什麼用戶異常(紅色),而商家很好(綠色)?這就是刷排名,或者刷銷量的方式。

這也是第三道防線的「威力」所在。

它能在在識別用戶風險上,綜合個體、分身和群體的識別結果,並將結果應用於營銷活動、用戶畫像、實時攔截等環節。

針對商戶:防止BD 聯合商戶騙取補貼

一般商戶風險有三種形式,一個是刷補貼,一個是刷銷量(刷排名),另外一個就是虛假店。

前兩項在老徐的故事中應該有所體現了,針對這種情況,可以根據每個商戶的用戶、訂單、物流、商戶菜品等維度進行深度挖掘,建立風控模型,最後根據模型結果建立自動化的分級處罰機制。

對於第三個虛假店,其實識別是個很複雜的過程,王永會在演講中以「商戶上傳假圖片」為例。

換句話說,如果你想開家飯店,也許只需要一個技能------PS。

對於虛假商家的問題,BD 在幫着商家提交資料的過程當中,有一項資料是提交商家的門口照片。

王永會說,當商家入駐到平台時,審核人員看到的只是其中一張圖,還不是三張,這時候更難分辨哪個是真的,哪個是假的,這就需要做盜圖檢測和PS識別,針對盜圖的技術方案已經非常成熟。

我們目前能夠做到準確率達到99%,這個東西必須要與PS檢測結合起來,PS檢測不幸的是也是一個非常難的題,現在沒有針對PS的針對解決方案,前段時間網上發酵了一個薛之謙事件,很多網友說他是P的,他認為你P圖跟原圖壓縮之後不一樣,我們內部做PS檢測的時候也有類似的方案。

其實,如果風控直接做在審核環節,像上面的虛假商家,在審核圖片環節就可直接攔截。

最後,對於整體的外賣風控工作,王永會總結,其實數據是根本,模型是工具,理解業務是關鍵。只有掌握了用戶、商戶、騎士等各方面的數據后,才能建立模型對異常用戶進行識別,這個過程中最大的挑戰就是業務滲透,百度外賣的健康度模型之所以效果不錯,還是得益於與業務團隊的合作,把風控滲透到了各個業務角度當中。

本文部分內容來自2017TOP100全球軟件案例研究峰會 數據科學/人工智能專場。

演講人:百度外賣風控技術負責人  王永會


想在手機閱讀更多中國內地資訊資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems