對話丨ChatLaw 團隊袁粒:做普通人也能用的法律大模型

.. 作者丨王悅

編輯丨董子博

大模型賽道的競逐進行到6月,AI 行業的共識正發生着迅速而激烈的變化。

從開始對泛用大模型的追求,到對更具落地能力的行業模型,越來越多的從業者開始發現,如果無法實打實地成為生產力,那麼無論是「大模型」還是「AGI」,都不過只是一個被炒熱炒紅的概念。

「只有被應用到實際生活里,科學技術才能產生價值。」如此堅信着,北京大學信息工程學院助理教授、博士生導師袁粒一門心思,撲在了大模型的應用層開發上。

今年早些時候,袁粒便帶領團隊開發了一款名為「ChatExcel」的產品,意圖利用大模型技術,來幫助用戶更高效地完成圖表工作,一時間獲得了不少好評。

而今天,袁粒和團隊又推出了一個新的項目——「ChatLaw」。應用大模型技術,ChatLaw 可以幫助對法律知之甚少的普通人,讓他們能夠獲得一些初步的法律建議,並且還能夠進一步地幫助他們,完成分析證據、起草訴狀、尋找法律援助中心等工作。

「ChatLaw 可以讓老百姓獲得專業法律幫助之前,完成律師30-40%的工作。」袁粒對 AI 科技評論表示道。

作為國內首個法律場景下的落地大語言模型產品,袁粒帶領課題組和北京大學-兔展AIGC聯合實驗室,完成了不少工作。

一方面,袁粒和團隊收集了大量的公開數據——如法律法條、判例、司法解釋等,又通過北京大學的平台,在北大國際法學院和相關的律所收集到了不少私有數據,以及一個比較完備的知識圖譜,形成了一套專業的數據庫,讓 ChatLaw 在法律領域,具有對場景的更好理解能力;

另一方面,大模型常常會「一本正經地胡說八道」,尤其是在專業領域,常常給出失之毫釐,差之千里的結果。為了最大程度上解決困擾大模型的「幻覺」問題,讓 AI 能在法律領域保證輸出的正確性,ChatLaw 並不是單個大模型「一人成軍」,而是由四個分管不同能力的大模型「強強聯合」,針對不同的專業法律領域,完成更高質量的生成輸出。

在 ChatLaw 的實際測試中,袁粒說,單看法條輸出的正確率,已經可以達到80%-90%,偶有錯漏;而就給出的法律建議而言,也能達到60%以上的滿意度——相較其他大模型產品高出不少。

ChatLaw 在今日已經開啟了邀請制的內測,乘這個機會,AI 科技評論和袁粒進行了一場對談,對有關 ChatLaw 和當下大模型產品的技術判斷,討論了許多先進的認知。

以下是 AI 科技評論與袁粒的對談實錄,雷峰網在不改變原意的情況下做了編輯和調整:


專業數據+知識圖譜

讓 ChatLaw 變成最專業的法律大模型


AI科技評論:專業數據對於大模型的垂直領域場景理解至關重要,ChatLaw 在數據收集的角度,做了哪些努力?

袁粒:法律領域相較其他比較特殊——很多最高質量的數據,都是公開數據。這其中就包括法律法規、判例文書、司法解釋等等。我們的數據處理,主要就是基於這些公開的數據。

同時,我們也獲得了一部分比較有價值的私有數據。這部分數據,主要是北大國際法學院,以及這個部分的行業律師事務所,提供給我們的私有數據。不僅如此,他們也對我們的數據集進行了一個專業的加持——具體而言,就是把這些數據集中,再將不行的部分刪去。

但總體上,我們最大規模的數據集還是以法律法規為基礎的公開數據。

AI 科技評論:具體而言,法律場景會用到的數據有什麼特殊性?

袁粒:首先,我們認為法律法條其實是個有限子集,因為條文是有限的。而事實情況,則可能是會多種多樣的。

在這樣的情況下,用事實來帶入法條,這些處理都是有跡可循的。所以,我們是以案例去構建了整個數據的核心,而不是單純以法條或事件。

除了案例之外,我們還有幾套支柱。對於每個案例,我們基於同案同判的原則,對每一種具體的 case 都會有一個律師的標註。

這也是我們數據集非常重要的一個環節,因為它包含了人的專業性在裡面,在事實判例和法律之間完成了一個連接。

通過這個圖譜,我們可以去對各種各樣的法律的案例進行回答;並且也能讓模型知道,什麼是對的回答,這個非常重要。


「四合一」的架構

讓「幻覺」更少出現

AI 科技評論:法律作為一個相當嚴肅的場景,和醫療、金融區別在哪裡?

袁粒:法律這個行業,跟金融、醫療場景有一個比較大的區別——它的流程是非常程序化和標準化的。實際上 ChatLaw 去模擬的,就是一個法院、或者說律師,通過理解用戶的事實,然後對他的事實提出對應的法條,然後最終做出整套的判斷。

實際上在這套流程中有三個步驟:

歸納事實;

從事實推理到法條;

依據上面的結果,發現爭議焦點,進行完整的推理,給出法律建議。

我們的 ChatLaw 雖然是大模型產品,但實際上包了四個模型,但其中放在 GitHub 上開源的只有一個模型。

AI 科技評論:這四個模型分別有什麼功能?他們之間是如何協作的?

袁粒:四個模型中,第一個模型是調動模型,負責理解用戶的這個語義,再來依據事實,來調度特定的子模型。

餘下的三個模型,主要功能是從事實歸納出法律,或者說,法律加爭議交鋒點去做推理。

對這三個模型,我們在訓練的過程中,關鍵是在訓練階段將對應這個模型專有和特定的知識,在模型裡面去大量地輸入,再去做特殊處理和強化學習。

那麼這樣,我們確保模型在一個單獨的場景下,它具有非常高的推理能力,這三個模型就能針對專有的問題,完成高質量的輸出。

AI 科技評論:1+3的這個模式相當新穎,並且聽起來也更能應對專業領域的問題。這個模式,會成為以後行業大模型的新趨勢嗎?

袁粒:這裡面有兩個問題。

第一個問題,就是法律場景有它的特殊性。法律是一個非常流程化的場景,但是如果遷移到一個別的領域——比如說教育——它可能就不是這樣了。

我認為,可能只會有兩到三個特定領域的場景,它會可以使用這種方法,其他的場景應用起來,提升效果可能不會這麼大。

第二個問題,是它的投入產出比可能會比較小,因為 ChatLaw 的模式,相當於為一個產品訓練了三個模型。

AI 科技評論:在 ChatLaw 研發的階段,最大的難點在哪裡?

袁粒:其實我們現在是有一個瓶頸,它就是我們的調度模型。

因為參數量的問題,我們認為其實百億級的調度模型,它的效果可能並不那麼令人滿意,我們之後會把它替換成別的算法。


千模大戰下

袁粒的技術判斷

AI科技評論:在團隊建設上,我們的團隊平均年齡有多大?

袁粒:我們的團隊不少都是00后,當下有些還正在讀研。其中幾個比較優秀的同學,比如伯華,負責頂層設計和產品化,是我們項目的主要推動者;以及家熙,負責模型的訓練,在科研上非常強。

AI 科技評論:在這樣一個年輕的團隊里,您觀察到,大家對 AI 和大模型有什麼新的看法?

袁粒:這一屆年輕人都非常理性,從年初開始,團隊就在講,這是這會是一波巨大的科技浪潮,但是團隊也同時深知這個過程會比較慢,可能會持續很久。

在這樣一個比較慢的賽道,我們從一個商業的角度來說,更應該是「以終為始」。

AI 科技評論:具有一種「終局思維」。

袁粒:是的,我們更關注這個局面下,哪些要素更重要?掌握哪些要素的人會贏?而我們現在做的,就是要去提前把這些成功要素給湊出來。

AI 科技評論:商業化一定是個很重要的要素。

袁粒:沒錯,但對於 ChatLaw,我們不會急於把它變成一個太商業化的項目。主要是,ChatLaw 的模式,可能並不適合大規模向 C 端收費——畢竟法律幫助是一個低頻需求。

現階段,我認為 ChatLaw 還只是個showcase,是在我們一個名為 ChatKnowledge 這樣一個計劃中的第一步。

在做這個項目的同時,我們也積累了一整套的能力,包括我們剛才提到的模型調度能力,也包括外掛知識庫對生成內容約束等等。

我們慢慢沉澱出來的 ChatKnowledge 這一整套打法,才是未來我們眼中的「終局」。未來我們也會走一些面向企業和政府的項目,來迎接大模型 AI 2.0 的潮流。

(未來,雷峰網會關注更多的大模型和 AIGC 賽道優秀創業者,歡迎和本文作者:s1060788086,交流認知,互通有無。)



想在手機閱讀更多中國內地創業資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems