那些一折特價機票被誰搶了?原來不是人!

A:快到平安夜、聖誕節、跨年夜了,準備去哪?

B:想去香港,前兩天看到有低價票,泰國也不錯,最近也有低價票,國內就算了,沒看到什麼打折活動。

A:搶得到嗎?我沒有一次搶到低價票的。

B:試試唄,我家網還行。

結果 B 小姐深夜敷着面膜準備發大招搶的特價機票被秒光,她氣得砸鍵盤,「對面和我搶票的什麼鬼?」

她有所不知的是,同她搶票的不是鬼,是爬蟲。

爬蟲如何搶座?

「賣票賣票!北京往返大阪的往返機票只需2599元!」

類似出現在朋友圈中的賣票信息很是常見,大多用戶在查詢到航企 APP 中票價已翻數倍時情不自禁剁了手。殊不知航企每每發出的特價票幾乎都被這些機票代理人利用「爬蟲」技術搶佔一空,所以搶不到低價票不要再怪網絡問題了。

具體來說,這一技術利用了航企訂票、購票流程中的帳期,即訂票后可能有10-30分鐘或者更多的支付時間。自動化的爬蟲技術正是抓住了這一時間差,利用虛擬身份進行訂票。此時雖未付錢,但此票已歸屬該虛擬身份,在賬期內票務方將這些低價票掛在自有網站、APP、微店、淘寶店或朋友圈等平台高價轉賣,謀取差價。若在賬期內沒有賣出此票,爬蟲也可在限定時間內取消訂單或在訂單失效后馬上續訂,保證此票一直在手。

而普通用戶在航企官網查看時卻顯示低價票已售盡。

爬蟲肆虐,是何原因?

爬蟲程序(crawler/spider),又稱,蜘蛛程序。雖然以多足動物命名但其起源卻是搜索引擎,即按照一定的規則,自動地抓取互聯網信息的程序或者腳本。

而隨之漫長的進化,這一物種也被用於各大互聯網金融、電商平台,以及社交領域等。在上述搶票環節,爬蟲不僅抓取航企官網的機票價格,在發現特價機票后更充當「偽裝者」,仿冒真人用戶搶訂機票。

事實上,航企投放的低價機票很少被普通用戶買到,據業內人士估計,80% 以上低價機票被票務公司的爬蟲搶走。

爬蟲肆虐到底是何原因?

「利益驅動,這是一切事情最原始的出發點。」。浙江邦盛科技技術總監李白對雷鋒網如此說。

如果說利益是起點,那提直降代、行業競爭、網站獲客則為爬蟲肆虐填了一把火。

提直降代,航空公司被迫加入爬蟲之戰

2015 年上半年,國資委要求幾家國有航空公司未來三年內直銷比例要提升至50%,同時代理費要在2014年的基礎上下降 50%。

一場「提直降代」大戰被推向制高點,有業內人士介紹稱,直銷比例每提高 10%,航空公司就可以從代理人手中節約近10億元的分銷費用。相反代理渠道出票佔比下降,低價票、退改簽、捆綁保險及其他產品等「傳統盈利空間」被打壓。利潤下降催生了票務公司轉型,通過爬蟲賺取差價。

行業競爭促生爬蟲肆虐

任何一個行業都存在競爭,各大航空公司除了不斷優化飛機設施以及服務態度來增加用戶體驗,也需要技術手段。

舉例來說,A、B 兩家航企皆開通了北京到馬來西亞航線,如果 A 航企通過爬蟲技術佔據了 B 公司大部分票源,造成其無票可售後,乘客自然轉向B公司購票。又或者利用爬蟲技術佔據經濟艙座位,面對貴賓區高昂的價格多數乘客會選擇更換平台購票。

而遭受虛擬佔座導致資源浪費,賣不出票的 A 公司會善罷甘休嗎?

當然不會,互爬大戲就此掀開。

OTA 網站吸引用戶

如同程、攜程、驢媽媽、去哪兒之類的 OTA 網站如何通過推廣手段,獲取更多的客戶?

降低票價吸引客戶,自然最有效的手段。但如何定價才能既不傷害自己的利潤又略低於他家則是最關鍵的問題。要做到這一點勢必先了解其他友商、同行普遍票價,此時便用到了爬蟲技術。這似乎變成了行業潛規則,你爬我,我爬你,造成爬蟲流量佔據平台總流量 95% 的奇景很是平常。

之後要做什麼?

看似常見的機票爬蟲實則造成了一系列連鎖反應,用戶信息泄露,平台流量崩潰,機票詐騙,最初幾塊骨牌的傾斜引發的是整排多米諾骨牌的傾塌。

爬蟲與反爬蟲是博弈的過程,在此過程中無論是道高一尺還是魔高一丈都會引發不同的碰撞。

常規「反爬蟲」技術包括IP限頻限次、識別控制代理IP、祭出各類複雜驗證碼等。其中,IP 來源單一、從未成交過訂單且行動異常的IP、訪問頻次過高等容易被識別出的「爬蟲」,會被封掉IP。而對於航企來說,這遠遠不夠。

航空公司下一步應該做什麼?

李白告訴雷鋒網,航企可以從兩方面考慮,其一是從業務場景上改進。

比如關於時間差問題,以往訂票后的賬期內已鎖定某座位,其他人不能再定這張票。而目前國內三大航企已着手修改這一支付規則,必須付款后才會鎖定座位,若是沒有付款,這一座位仍可以被其他乘客購買。相當於提升了攻方的佔座成本。

但是這一招數卻相當於傷敵一千,自毀五百,因為會使用戶體驗下降,且降低了用戶的轉化率。

其二從技術手段上來說,航企的目標是要提升爬蟲搶票行為識別的準確率,只有提升了準確率,才能精準打擊,減少誤差。

如何提升準確率呢?

可以從客戶端和服務端上融合實現。客戶端安全指用瀏覽器、APP購票的時候,在設備上進行環境的檢測,檢測出來對方是否自動化爬蟲工具占票。同時再用人機識別(結合全網大數據分析的行為識別)。另外不但環境要是安全的,用戶行為也必須是合理的,真實用戶購票過程一定不會直接買票,而是有瀏覽軌跡或者頁面跳轉,如果沒有這些動作則被視為潛在風險用戶。

在服務端,可以基於對外部訂票網站的全流量進行大數據的分析和智能決策,針對一個 IP或者設備 結合多要素進行綜合分析決策,譬如其中間的點擊,訪問軌跡,包括其訪問網站時對靜態資源(圖片、CSS)的訪問豐富度等等,因為正常的用戶一定要去執行這些東西,但是直接通過報文模擬他就不會去做。

而智能分析決策平台是如何搭建的呢?

李白告訴雷鋒網,這個決策的過程就得通過專家,對整個票務領域的場景理解,針對的性給出一些專家規則,甚至我們也可以基於本地化的流量,再結合我們在雲端的全網數據的分析,兩者相結合,通過機器學習不斷的優化我們這個規則,或者說給出一些樹模型、神經網絡的模型。在線預測的這種機制,可以更進一步的提升準確率,和查全率,既要查的准,又要抓的多。

當然上述決策往往建立在封IP的基礎上, 但這種既可能誤傷真實用戶,對於攻方來說,一個IP不能訪問那就換一個。所以守方也開始考慮,控制手段除了封閉,是否可以考慮加入動態的驗證碼,或者限速、限流、延遲到達等等。

比如某些網絡爬蟲採用先訂票不支付,直到訂單截止的前一秒取消訂單並馬上重新訂票。若被識別出來,完全可以讓原本計劃的無縫銜接的二次搶佔行為延遲幾分鐘到票務網站,在對方處於無感知狀態下發現到手的票沒了。除此之外,也可以在識別出機械人爬蟲后將購票頁面跳轉到虛假網頁,讓其竹籃打水。

總之,「反爬蟲」並非一朝一夕,這場攻防戰必定是漫長的過程。

文章參考cnBeta


想在手機閱讀更多css資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems