
「用大數據和人工智能服務企業,這片市場相對更加藍海,門檻和壁壘更高」。火石創造創始人兼CEO楊紅飛如是說道。
獲國際醫藥巨頭青睞
火石創造將自己定位成「智能醫健大數據服務平台」,要用人工智能和大數據賦能企業的研發、營銷、銷售和戰略制定。楊紅飛認為,要做好這件事情,必須先組建一支複合型的技術團隊。
火石創造的技術團隊主要由三類人員構成:一、負責研發和IT架構的技術人員;二、算法專家;三、擁有深厚醫學背景和產業經驗的技術人才。
楊紅飛對雷鋒網表示,和服務於疾病的醫療AI企業不同,火石創造的醫學人才不僅具備醫學專業知識,還對企業經營有着深刻的理解。他說道:「我們的創始團隊都是做產業出身的,過去自己做過企業經營,有比較深入的體會。」
正因如此,國際醫藥巨頭默沙東在先後接觸了IBM、微軟等多家企業后,最終選擇和火石創造達成戰略合作,共同開發醫學指南機器輔助閱讀系統。
「客戶洞察」是默沙東醫學部的重要日常工作之一。默沙東希望利用人工智能技術對已出版的歷年英文醫學指南與文獻進行機器閱讀,並深度挖掘出未被滿足的臨床需求、亟待完善的數據需求、競品醫學信息、最新臨床經驗、近期被關注的話題等等。從而更好的了解客戶需求,為客戶提供更為精準的醫學服務並造福於病患。
幾經篩選之後,既懂醫療行業,又對數據和算法有深入了解的火石創造成了最佳選項,二者一拍即合。
什麼是醫學指南機器輔助閱讀系統?
「醫學指南機器輔助閱讀系統能夠幫助用戶快速閱讀所需的指南信息,了解特定疾病治療領域的發展趨勢。」火石創造創新產品總監周俊博士表示,這套系統將導入當前已發佈並可收集到的醫學指南文本,同時加載近10年發佈的疾病相關文獻與經過編輯的疾病醫學知識庫,輔助用戶挖掘價值信息,具體包括診斷標準、治療流程、藥物使用情況、治療療程、高頻文獻等。通過用戶的使用與反饋信息,系統運用自學習機制,不斷提高系統的信息挖掘和有效信息推薦的能力。
該醫學指南機器輔助閱讀系統的具體功能包括:
推薦醫學文獻中近期出現的高頻、熱點詞彙,並輸出參考文獻列表。系統將引導用戶輸入關注的內容,並快速定位相關段落,根據內容重要性和出現頻率進行推薦。當用戶聚焦於某一推薦段落閱讀時,系統將高亮段落中的重點醫學詞彙,提示用戶關注。此外,系統還可以智能化輸出標準化的指標比對情況,以及提供用戶自定義對比。最終,在可視化交互界面中出現直觀的對比結果。
對已有醫學指南的質量進行評估:用戶在系統中提交醫學指南后,需要選擇指南的年份、疾病種類和打分敏感度,隨後打分輔助系統會依據火石創造所設計的,基於打分規則模型,給出23個評分點的分值。
楊紅飛表示,這套系統的推出得益於默沙東和火石創造的親密協作。默沙東的醫學科研人員主要負責幫助火石創造建立對產品的理解和認知,比如人是如何閱讀醫學指南的,他的閱讀邏輯是什麼,他們需要在醫學指南中提取哪些關鍵信息,如何將這些信息互相比對;以及如何找到信息變更的依據等。火石創造則負責具體的技術實現。
用到了哪些技術?
據火石創造創新產品總監周俊博士介紹,醫學指南機器輔助閱讀系統的核心技術主要包括:
1.疾病知識庫的建立;
2.詞語特性的抽取 ;
3.語義理解;
4.系統的自學習功能(智能化識別)
周俊博士表示,實體識別與關係抽取是疾病知識庫構建的一大技術難點。目前,流行的實體識別方法主要有基於規則(Pattern-based)的方法、基於深度學習的LSTM + CRF,以及BPS方法。
基於規則的方法要對識別的實體類型設計人工規則,通過多次迭代驗證來修改這些規則,逐漸提升識別的準確率,也可利用標註好的訓練樣本來自動篩選這些規則。基於深度學習的方法可以把實體識別和關係抽取放到一起,作為一個端到端的系統,用一套網絡同時識別出實體和關係,或用LSTM網絡提取特徵,作為CRF的輸入,即在輸出端用CRF對結果校正。用端到端的神經網絡方法可以省去規則方法的大量的特徵工程,簡化開發過程,但是要求有大量的標註樣本才能夠達到好的效果。
為此,火石創造計劃用一些半監督訓練的方法(如GAN),和對樣本需求量更少、效果更好的NTM網絡對LSTM網絡進行修改,並利用遷移學習的方法,先在其他場景下的大量樣本下進行訓練,再把結果遷移到當前的數據集。
另外,目前業內的全文檢索方式都是通過關鍵詞匹配的方式去檢索的,但是意義相似關鍵詞不同的內容可能無法檢索出。火石人工智能數據挖掘平台利用word2vec和fasttext,訓練了一個醫療健康語義模型。現在已經可以完成一些簡單的語義級別的搜索,比方搜索機器學習,人工智能的相關內容會被檢索出,機器能自動計算出他們的相關性。
周俊博士向雷鋒網介紹,火石創造的醫學指南機器輔助閱讀系統目前已經從Pubmed、Web Of Science、Springer、Wiley Interscience、 Science Direct等文獻數據庫中,採集了200多萬條相關醫學文獻;同時還通過醫學詞彙字典和文獻中的自學習獲取了幾十萬條相關詞條。周俊博士坦言,這套系統目前還不夠完善,未來火石創造會繼續給機器輸入,或者讓它在文獻中自動挖掘更多的詞彙。
藉助這套系統,醫生和醫藥企業的醫學指南閱讀人員,包括醫藥新葯研發人員、醫藥推廣/銷售人員,可以更加方便快捷地抓取自己想要的信息。
與默沙東達成戰略合作是對火石創造的一次充分認可,但火石創造對未來還有着更多的憧憬。
用AI賦能企業和政府
為了解決醫健行業中的數據之困,火石創造利用人工智能與大數據技術構建全球醫健產業創新創業地圖 HSMAP為企業和政府賦能。通過自主研發的Spider智能數據源構建系統和Darwin數據智能處理引擎,覆蓋全球635個官方數據源,10萬個數據採集點的數據合作和交換機制,以及基於全球主要搜索引擎的數據獲取框架和機制。
據雷鋒網了解,目前 火石創新創業地圖HSMAP 已有 229萬+創業公司、6萬+研究機構、5萬+投資機構、1400萬+專利、230萬+產品、1000萬+位創業者、22萬+臨床試驗及 2000萬+文獻數據。
火石創造CEO楊紅飛表示,未來火石創造將通過核心產品產業大腦系統,與各區域政府建立合作,一方面在業務上成為政府大健康產業發展所依賴的戰略合作夥伴,實現第一階段的營收;另一方面從戰略上形成區域大健康產業數據的分級採集網絡,使得系統運行產生源源不短的數據流,不斷完善產業數據。
同時通過企業大數據情報系統產品,以及後續企業AI中心產品和服務,向大健康企業輸入大數據和人工智能技術,建立企業對火石的技術和數據依賴。
通過各項業務的開展,最終形成生命健康產業的協同網絡和數據平台。平台可以精準的實現產業的多邊組合和協作,發揮信息發佈、鏈接、資源整合、以及中間信用服務等功能。
楊紅飛表示,從信息到數據,從數據到資源,從資源到交易,是火石平台化發展的路徑。在完善數據服務之後,火石將進一步鏈接、整合各方資源,形成基於數據的精準匹配。而要做到這些,不僅是要有先進的技術能力、完整且實時在線的數據庫,還需要有較強的運營能力。火石將不斷加大技術研發投入,鍛造核心競爭力。