過去,業內有按時更新圖片庫、提升生成要素難度、二次驗證的方式以降低驗證碼的安全風險。如今,隨着生成式AI、大模型能力的出現,提升驗證碼安全性的方式又得以多樣化。
36氪日前了解到,業務安全公司「頂象」已經利用大模型能力,更新自己的驗證碼防護類產品。
公司向36氪表示,過往針對驗證碼的典型攻擊手法有機器破解和人工打碼兩種。
其中,機器破解主要通過識別圖片中的相關驗證要素進行破解,如識別滑動驗證碼的缺口,點選驗證碼中的文字要素、數字要素。在這種方式中,黑灰產會爬取驗證碼平台的圖片素材,生成自己的驗證碼圖片素材模型庫,並進行訓練,從而讓程序迅速識別出遇到的驗證碼(如滑動、拼接、點選、旋轉、計算等)類型。接下來,通過識別的結果,程序會使用相似度算法檢索模型庫,快速定位到相近的圖片,並模擬人類操作,對圖片進行旋轉/滑動/選擇/計算/拼接等,直至成功。
可以看出,這是一種技術門檻較高的方式。因此,另一種門檻較低的破解途徑——「人工打碼」應運而生。在這種方式中,黑灰產會建立或尋找一個任務平台,將獲取到的驗證碼信息封裝成任務提交到打碼平台。這時,任務領取者就可能在打碼平台接到這一任務,幫黑灰產完成打碼。
基於驗證碼被破解的原理,業界提供的對應安全措施主要包括,加快驗證碼圖庫更新、提升驗證要素識別難度、基於驗證環境信息進行防禦三種。
加快驗證碼圖庫更新,是指通過高頻率的生產圖片,保證新的驗證圖片實時更新,防止打碼平台拖庫。這種情況下,黑灰產的標註者需要源源不斷的對新的圖片進行驗證,識別與破解成本較高。
提升驗證要素識別難度,指的是基於深度學習和神經網絡,生成一些難以被預測和重複的圖片、元素,並在驗證過程中加入時間戳或者隨機數等動態變化的因素,增加破解的難度,幫助抵禦機器破解。
基於驗證環境信息進行防禦,是說在驗證碼的驗證環節,採集有辨識度的環境信息,配置規則和策略,通過辨別異常篩選出可能是黑灰產的請求,進行二次驗證或攔截。例如,判斷完成驗證時的驗證環境信息和token上報時的驗證環境信息是否一致,對多次惡意攻擊的IP地址進行攔截,限制驗證碼輸入的次數等。
植入新一代AI能力的驗證碼產品,首先能夠提升圖片庫的更新頻率。
頂象CEO陳樹華告訴36氪,為避免版權問題,驗證碼公司需要自己生成圖片,但一個設計師的生產力最多可以達到一天十張左右。有了AIGC,頂象生成圖片的頻率提升,從而降低了黑灰產快速破解的概率。陳樹華表示,在過去的圖庫更新速度下,黑灰產快速爬取完圖庫的概率較高。"大家辛苦設計了很久,但黑灰產把圖片全部爬下來,很可能是瞬間的一件事。接下來就可以發動針對性攻擊。也就是說,整個對抗力量是不對等的,這個問題一直是行業痛點。"陳樹華表示。
據介紹,使用AIGC工具后,頂象圖片的生產效率提升上萬倍。以單個GPU計算機為例,利用AIGC技術20秒就可以生成一張圖片。使用100個GPU的小型計算集群,一天就可以生成43萬2000張新的圖片,一個月可以生成超過1000萬張新圖片。"AIGC的生產能力是人工製圖的上萬倍。"陳樹華說。
而提升圖片更新效率,不僅能相對彌補攻防雙方的力量差距,還能減輕業務安全公司員工的部分工作。"比如,圖片庫的配置工作就可以減少。目前看管理員配置效率提升了50%。"陳樹華介紹。
但其實,內容生成不是全新事物。陳樹華告訴36氪,頂象早前已開始探索圖片生成。據介紹,頂象原先採用將3D模型和有限的背景結合生成的方式,生成不重複的背景圖片,希望解決傳統驗證方式使用有限集合背景圖片,導致被破解的問題。
但這次大模型的能力讓陳樹華還是覺得打開了思路。原因在於,之前的生成方式不能做到圖片質量的穩定,而這次基於大模型而生成的圖片,不僅速度快,圖片審美也得到了提升。"驗證碼的圖片一定要是一眼看上去可接受的、自然的。否則用戶是不會使用這類產品的。"他認為。
AIGC為驗證碼安全提供的好處不止如此。據介紹,利用AIGC,驗證碼廠商還可以優化已有的驗證方式,甚至創造出一些對用戶友好、但機器識別難度較高的新型驗證碼。比如,常見的滑塊驗證碼,為保證有足夠識別度,目標缺口的像素與周圍的像素需要有一些差異,往往非常容易識別,能讓黑灰產較輕易地判斷出滑塊的目標位置。利用AIGC,可以設計出沒有缺口的滑塊驗證碼,要判斷出目標位置還需要理解圖像的語義,由此增加黑灰產的破解難度。
頂象為整體的使用效果做了測試,發現使用AIGC后,產品的風險攔截率提升19%。對比來說,使用靜態圖庫作為驗證碼圖片時,圖庫更新一周以後,爬蟲的攔截防禦能力會出效果衰減,一個月左右,惡意爬蟲通過率會達到20%。使用AIGC生成圖片后,爬蟲通過驗證通過率立即下降至0.8%以下,且長時間維持在1%以內。
當然,要合理使用AI能力,還需要其他技術能力支撐。
當前,頂象主要使用Stable Diffusion生成圖片,正在測試Midjourney等其他大模型。但不論是哪種工具,都可能出現生成圖片的圖片不準確、不符合邏輯(比如人像中出現六根手指)的情況。為避免影響商用,頂象如今採用限定標籤的方式,重點生成特定領域的、可控的圖片。
據介紹,當前公司的AIGC圖片的標籤庫,包括植物、風景、交通工具、食物以及生活用品等,按照小類劃分,大概有110多種。目前標籤庫主要以常見的實物為主——如大海中的輪船、十字路口的紅綠燈、大海中的輪船、十字路口的紅綠燈等。後續,頂象計劃將標籤庫拓展到生活家居、計算機等,客戶也可以根據自己的行業屬性、業務特點、業務場景自定義標籤。
另外,生成的圖片也要避免內容安全問題。陳樹華表示,頂象當前會在產品內疊加更多的算法,用以檢測內容。
在交付方式上,目前頂象的SaaS用戶已經可以體驗到加入AIGC能力后的產品。但私有化部署的客戶,由於交付方式較複雜和客戶方算力成本較高等因素,暫時沒能參與其中。
陳樹華認為,大模型的另一個好處是改變國內To B產業的交付方式。"大模型最大的特點就是智能化能力的提升。但要出現這一效果,必須讓大量數據、服務得以匯聚。"他認為,如果客戶都認可大模型的智能化能力,那麼To B長期私有化部署的產業形態可能會減弱。
另一個不可忽視的可能性是,理論上,大模型的能力對所有人開放,這意味着黑產也可以利用AIGC增強破解能力——基於AIGC,黑灰產或許不再需要採集驗證碼廠商的圖庫並打標,就能訓練模型識別各種藝術字。在這種場景中,黑灰產可以利用AIGC自動生成大量漢字對應的各種樣式的藝術字,作為數據集訓練模型,讓模型魯棒地識別任何風格的藝術字。
"也許在不久的將來,藝術字驗證碼這種驗證方式將完全失效。這也會進一步推動驗證碼企業提升驗證方式的安全性和對抗性。"陳樹華如此認為。