侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

技術(shù)驅(qū)動(dòng)醫(yī)藥進(jìn)化:藥物篩選五次迭代與AI虛擬篩選戰(zhàn)術(shù)全景解析

在20世紀(jì)中葉以前,藥物發(fā)現(xiàn)更像是一門“玄學(xué)”?茖W(xué)家們依賴經(jīng)驗(yàn)和運(yùn)氣,從天然產(chǎn)物中尋找能引起生理反應(yīng)的物質(zhì)。

但這種“只知其然,不知其所以然”的表型篩選效率極低。隨著受體理論的誕生和分子生物學(xué)的興起,我們才真正開啟了靶點(diǎn)導(dǎo)向的理性設(shè)計(jì)時(shí)代。

今天,站在 AI 與大數(shù)據(jù)的潮頭,回看這五次技術(shù)迭代的歷程,我們能清晰地看到人類是如何將偶然變成必然的。

一、藥物篩選技術(shù)的五次迭代

藥物篩選技術(shù)的發(fā)展并非線性遞增,而是經(jīng)歷了數(shù)次范式轉(zhuǎn)移。根據(jù)相關(guān)文獻(xiàn)這一歷程可以清晰地劃分為五個(gè)階段,每一次迭代都是對(duì)前一代局限性的技術(shù)突破,也是人類對(duì)生命化學(xué)本質(zhì)認(rèn)知邊界的拓展。

1、第一次迭代:低通量隨機(jī)篩選

在20世紀(jì)中葉以前,藥物發(fā)現(xiàn)很大程度上是一門依賴經(jīng)驗(yàn)和運(yùn)氣的“手工藝”。這一階段的特征是篩選通量極低,且往往缺乏明確的分子靶點(diǎn)。科學(xué)家們主要關(guān)注天然產(chǎn)物(植物提取物、微生物發(fā)酵液等),利用全動(dòng)物模型(如感染小鼠)或離體組織(如平滑肌條)進(jìn)行測試。

主要特征與局限:

依賴表型:篩選依據(jù)是觀察到的生理效應(yīng)(如血壓下降、細(xì)菌死亡),而非分子層面的結(jié)合。這種“表型篩選”雖然能保證化合物在生物體內(nèi)的有效性,但往往難以闡明其具體作用機(jī)理(MoA),導(dǎo)致后續(xù)優(yōu)化困難。

通量限制:由于依賴手工操作和生物活體,每天只能篩選幾個(gè)到幾十個(gè)化合物。

資源限制:化合物來源局限于天然產(chǎn)物和已有的少量合成染料或化學(xué)品。

盡管效率低下,這一時(shí)期卻誕生了抗生素(如青霉素、鏈霉素)和許多經(jīng)典藥物(如阿司匹林、嗎啡),奠定了現(xiàn)代制藥工業(yè)的基礎(chǔ)。

2、第二次迭代:基于機(jī)理的低通量篩選

隨著20世紀(jì)60-70年代分子生物學(xué)和生物化學(xué)的興起,人類開始從分子水平理解疾病機(jī)制。受體理論的確立和酶學(xué)的發(fā)展,使得科學(xué)家能夠?qū)⑻囟ǖ牡鞍踪|(zhì)(如酶、受體、離子通道)分離出來作為藥物靶點(diǎn)。

范式轉(zhuǎn)變:

靶點(diǎn)導(dǎo)向:篩選不再是漫無目的的隨機(jī)嘗試,而是針對(duì)特定的生物大分子進(jìn)行。例如,針對(duì)血管緊張素轉(zhuǎn)化酶(ACE)尋找高血壓藥物。

理性設(shè)計(jì)萌芽:這一階段開始出現(xiàn)基于底物或已知配體結(jié)構(gòu)的理性設(shè)計(jì)思想,雖然篩選通量依然受限于手工操作(如放射性配體結(jié)合實(shí)驗(yàn)),但命中率較隨機(jī)篩選有了顯著提高。

受體理論的確立讓“靶點(diǎn)導(dǎo)向”成為了可能,篩選不再是漫無目的的隨機(jī)嘗試 。但在開啟大規(guī)模篩選之前,一個(gè)更為核心的問題擺在了科學(xué)家面前:在成千上萬個(gè)潛在靶點(diǎn)中,究竟哪一個(gè)才值得我們投入巨大的資源?

此時(shí),基于大數(shù)據(jù)的理性設(shè)計(jì)思想開始超越單純的分子層面,延伸至戰(zhàn)略層面,F(xiàn)代藥物研發(fā)團(tuán)隊(duì)在立項(xiàng)初期,往往會(huì)借助一些數(shù)據(jù)庫,如在摩熵醫(yī)藥數(shù)據(jù)庫的全球藥物研發(fā)數(shù)據(jù)庫里來進(jìn)行一場“宏觀篩選”。

與實(shí)驗(yàn)室里的微觀篩選不同,這種基于商業(yè)與臨床數(shù)據(jù)的宏觀篩選,旨在規(guī)避擁擠的賽道和高風(fēng)險(xiǎn)靶點(diǎn)。通過分析摩熵?cái)?shù)據(jù)庫中關(guān)于特定靶點(diǎn)的全球管線分布、在研藥物的臨床階段流轉(zhuǎn)率以及競品的專利布局,科學(xué)家們能夠在源頭識(shí)別出最具潛力的“藍(lán)海”靶點(diǎn)。這意味著,在我們的移液槍吸取第一滴試劑之前,大數(shù)據(jù)的力量已經(jīng)幫助我們排除了那些注定無法成藥的方向,讓后續(xù)的高通量篩選(HTS)擁有了更精準(zhǔn)的戰(zhàn)略錨點(diǎn)。

3、第三次迭代:基于機(jī)理的高通量隨機(jī)篩選(HTS)

20世紀(jì)80年代末至90年代,藥物發(fā)現(xiàn)進(jìn)入了工業(yè)化時(shí)代。自動(dòng)化液體處理工作站、高密度微孔板(96孔、384孔甚至1536孔板)以及靈敏的檢測技術(shù)(如熒光、發(fā)光)的引入,使得HTS成為可能。

技術(shù)爆發(fā):

規(guī)模爆炸:化合物庫的規(guī)模從幾千種迅速膨脹到成千上萬種,大型制藥企業(yè)的實(shí)體庫通常包含100萬至500萬種化合物。

工業(yè)化流程:篩選變成了一條流水線作業(yè),機(jī)器人每天可以測試數(shù)萬甚至十萬個(gè)樣品。

組合化學(xué):為了喂飽HTS這頭“巨獸”,組合化學(xué)技術(shù)應(yīng)運(yùn)而生,能夠快速合成大量結(jié)構(gòu)多樣的化合物庫。

面臨的挑戰(zhàn):

盡管HTS極大地?cái)U(kuò)展了搜索范圍,但也帶來了巨大的成本壓力。篩選100萬個(gè)化合物需要消耗大量的試劑、靶點(diǎn)蛋白和時(shí)間。此外,HTS產(chǎn)生的數(shù)據(jù)雖然龐大,卻也混雜著大量的假陽性(False Positives),例如某些化合物可能通過非特異性聚集或干擾檢測信號(hào)而顯色,被稱為“頻繁擊中者”(Frequent Hitters)或“泛測定干擾化合物”(PAINS)。

4、第四次迭代:虛擬篩選(VS)與高通量篩選(HTS)的串聯(lián)與整合

為了解決HTS的“高投入、低產(chǎn)出”悖論,計(jì)算化學(xué)開始走向舞臺(tái)中央。虛擬篩選(VS)作為一種計(jì)算過濾器,被引入到篩選流程的前端。

協(xié)同效應(yīng):

漏斗策略: 科學(xué)家不再將所有百萬級(jí)實(shí)體化合物直接送入HTS,而是先利用計(jì)算機(jī)算法對(duì)億級(jí)虛擬庫進(jìn)行初篩,遴選出評(píng)分最高的100~10,000種化合物,再進(jìn)行實(shí)體驗(yàn)證。這種“干濕結(jié)合”的漏斗模式,顯著降低了實(shí)驗(yàn)成本,提高了篩選的命中率。

互補(bǔ)性: 研究表明,VS和HTS往往能發(fā)現(xiàn)不同化學(xué)空間的活性分子,二者是互補(bǔ)而非替代關(guān)系。例如,在GSK-3β抑制劑的篩選中,VS發(fā)現(xiàn)了HTS遺漏的骨架,且命中率(12.9%)遠(yuǎn)高于HTS(0.55%)。

5、第五次迭代:基于大數(shù)據(jù)人工智能建模的藥物篩選與預(yù)測

這是當(dāng)前正在發(fā)生的革命。隨著數(shù)字化信息的爆發(fā)和深度學(xué)習(xí)技術(shù)的成熟,藥物發(fā)現(xiàn)進(jìn)入了大數(shù)據(jù)與人工智能時(shí)代。

核心特征:

數(shù)據(jù)多模態(tài):數(shù)據(jù)來源不再局限于化學(xué)結(jié)構(gòu)和活性數(shù)據(jù),還包括科學(xué)文獻(xiàn)、專利、臨床數(shù)據(jù)、圖像(如細(xì)胞表型)、組學(xué)數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)。

從篩選到生成:傳統(tǒng)的VS是從現(xiàn)有庫中“挑選”分子,而生成式AI能夠基于靶點(diǎn)特征“創(chuàng)造”全新的分子結(jié)構(gòu),并預(yù)測其合成路徑和多維性質(zhì)(活性、ADMET、合成可行性)。

全流程預(yù)測:AI不僅預(yù)測分子是否結(jié)合,還試圖預(yù)測分子在細(xì)胞內(nèi)的動(dòng)態(tài)行為、在人體內(nèi)的代謝過程以及最終的臨床療效。

二、虛擬篩選面臨的新挑戰(zhàn)與機(jī)遇

虛擬篩選領(lǐng)域的大數(shù)據(jù)問題,并非僅僅是數(shù)據(jù)量的增加,而是涉及數(shù)據(jù)的規(guī)模、多樣性、速度和價(jià)值的全方位挑戰(zhàn)。

1、庫規(guī)模的指數(shù)級(jí)爆炸

虛擬篩選的核心挑戰(zhàn)之一是處理呈指數(shù)級(jí)增長的化合物庫。

早期階段:化合物庫主要由幾百種基于特定骨架的同系物組成,這僅僅是化學(xué)空間的一個(gè)微小角落。

組合化學(xué)時(shí)代:隨著組合化學(xué)技術(shù)的發(fā)展,通過不同模塊的排列組合,庫規(guī)模迅速擴(kuò)展到成千上萬種。

DNA編碼庫(DEL)時(shí)代:這是近年來最激動(dòng)人心的技術(shù)突破之一。通過將有機(jī)小分子與特定的DNA序列標(biāo)簽相連(類似商品的條形碼),科學(xué)家們可以在一個(gè)試管中合成并篩選數(shù)十億甚至上千億種化合物 。DEL技術(shù)使得“百億級(jí)”篩選成為現(xiàn)實(shí),其數(shù)據(jù)規(guī)模之大,使得傳統(tǒng)的計(jì)算方法面臨巨大的算力瓶頸。

此外,理論化學(xué)空間的探索更是無窮無盡。GDB-17數(shù)據(jù)庫列出了1664億個(gè)分子,這些分子最多包含17個(gè)重原子。如果考慮更大的分子量范圍,化學(xué)空間的大小可能超過(10^60)^2。面對(duì)如此龐大的數(shù)據(jù)海洋,簡單的線性搜索算法已無法應(yīng)對(duì)。如果在100億個(gè)分子的庫中,每個(gè)分子的對(duì)接計(jì)算需要1秒鐘,那么篩選完整個(gè)庫需要超過300年。因此,如何從海量數(shù)據(jù)中快速、精準(zhǔn)地識(shí)別出有價(jià)值的信號(hào),成為了VS技術(shù)的核心痛點(diǎn)。

2、數(shù)據(jù)的多樣性與復(fù)雜性

除了規(guī)模,數(shù)據(jù)的類型也在發(fā)生質(zhì)變。

結(jié)構(gòu)化數(shù)據(jù):早期VS技術(shù)主要依賴結(jié)構(gòu)化數(shù)據(jù)。

基于配體:利用已知活性分子的結(jié)構(gòu)特征(如2D指紋圖譜、3D藥效團(tuán)、形狀相似性)去尋找類似的分子。這就像是拿著一張嫌疑人的畫像去人群中找人,前提是你必須先知道“壞人”長什么樣。

基于靶標(biāo):利用靶點(diǎn)蛋白的三維結(jié)構(gòu)(通常來自X射線晶體衍射或NMR),模擬小分子與蛋白的結(jié)合過程(分子對(duì)接)。這就像是拿著一把鑰匙去試開一把鎖,前提是你必須有鎖的精確結(jié)構(gòu)。

傳統(tǒng)機(jī)器學(xué)習(xí):使用了支持向量機(jī)(SVM)、貝葉斯分類器、隨機(jī)森林等算法,基于分子描述符(如分子量、LogP、氫鍵供體數(shù)等)建立預(yù)測模型。

非結(jié)構(gòu)化數(shù)據(jù)與深度學(xué)習(xí):現(xiàn)代VS技術(shù)引入了深度學(xué)習(xí)(Deep Learning, DL)和高性能計(jì)算(HPC)。

挖掘文獻(xiàn)寶藏:深度學(xué)習(xí)擅長處理自然語言(NLP)和圖像。這使得它能夠挖掘科學(xué)論文、專利文獻(xiàn)等非結(jié)構(gòu)化數(shù)據(jù)中的隱藏模式。例如,通過分析數(shù)百萬篇文獻(xiàn)中的化學(xué)反應(yīng)描述,AI可以學(xué)習(xí)到哪些反應(yīng)條件更容易成功,或者哪些結(jié)構(gòu)片段經(jīng)常出現(xiàn)在特定靶點(diǎn)的抑制劑中。

動(dòng)態(tài)模擬與柔性對(duì)接:傳統(tǒng)的分子對(duì)接往往將蛋白視為剛性物體(僵硬的鎖)。但在真實(shí)生物體內(nèi),蛋白是不斷運(yùn)動(dòng)的,存在“誘導(dǎo)契合”效應(yīng)。隨著HPC算力的提升,基于分子動(dòng)力學(xué)(Molecular Dynamics, MD)的VS技術(shù)逐漸成熟。這種方法能夠模擬蛋白的柔性變化,捕捉到瞬態(tài)的結(jié)合口袋,從而更準(zhǔn)確地預(yù)測結(jié)合親和力,減少漏篩。

3、數(shù)據(jù)生成的爆發(fā)

相關(guān)文獻(xiàn)指出,人類數(shù)字化信息總量經(jīng)歷了多次爆發(fā),從1986年的0.02 EB暴增到2007年的280 EB,其中69%的信息是在2000-2007年間產(chǎn)生的。在藥物發(fā)現(xiàn)領(lǐng)域,這種爆發(fā)體現(xiàn)為基因組測序數(shù)據(jù)的激增、高內(nèi)涵篩選(HCS)產(chǎn)生的海量圖像數(shù)據(jù)、以及DEL庫產(chǎn)生的測序讀數(shù)。這些數(shù)據(jù)為AI模型的訓(xùn)練提供了豐富的燃料,但也對(duì)數(shù)據(jù)清洗、存儲(chǔ)和處理能力提出了極高的要求。

三、虛擬篩選的戰(zhàn)術(shù)圖譜

面對(duì)大數(shù)據(jù)的挑戰(zhàn)和單一算法的局限性,科學(xué)家們并未坐以待斃,而是開發(fā)出了一系列精妙的策略來提高篩選的成功率。這些策略的核心思想不再是尋找一個(gè)“完美”的算法,而是通過組合優(yōu)化、動(dòng)態(tài)反饋和實(shí)驗(yàn)整合,來逼近真實(shí)的生物活性。

1、基于共識(shí)的虛擬篩選

“三個(gè)臭皮匠,頂個(gè)諸葛亮。” 這句古老的諺語在藥物篩選中同樣適用。

虛擬篩選的本質(zhì)是預(yù)測配體與受體的相互作用。然而,沒有任何一種單一的算法(無論是AutoDock, Glide, Gold還是Surflex)能夠完美地模擬所有類型的相互作用(靜電、范德華力、氫鍵、溶劑效應(yīng)、熵效應(yīng)等)。有些算法擅長處理疏水作用,有些則對(duì)氫鍵更敏感。單一模型往往存在偏差。

為了彌補(bǔ)這一缺陷,共識(shí)評(píng)分策略應(yīng)運(yùn)而生。這種方法同時(shí)運(yùn)行多種不同的對(duì)接軟件或預(yù)測模型,然后綜合它們的結(jié)果。其基本假設(shè)是:真正的活性化合物應(yīng)該在 多種合理的模型中都表現(xiàn)良好,而假陽性通常只在某一種特定的算法偏差下得分較高。

2、迭代式虛擬篩選

如果說共識(shí)篩選是“集思廣益”,那么迭代篩選就是“小步快跑,快速糾錯(cuò)”。

傳統(tǒng)的線性篩選流程是:計(jì)算篩選 → 購買/合成 → 實(shí)驗(yàn)測試 → 結(jié)束。而迭代篩選將這一過程變?yōu)橐粋(gè)閉環(huán)。

工作流程:

(1)初始篩選:使用初步模型對(duì)庫進(jìn)行篩選,選取少量(如幾百個(gè))化合物。

(2)實(shí)驗(yàn)反饋:對(duì)這批化合物進(jìn)行實(shí)體活性測試。

(3)模型更新:將實(shí)驗(yàn)結(jié)果(不僅包括活性數(shù)據(jù),也包括非活性數(shù)據(jù),即“負(fù)樣本”)立即反饋給計(jì)算模型。模型根據(jù)這些真實(shí)的反饋進(jìn)行“自適應(yīng)優(yōu)化”或重新訓(xùn)練(例如調(diào)整打分函數(shù)的權(quán)重,或訓(xùn)練一個(gè)新的機(jī)器學(xué)習(xí)分類器)。

(4)循環(huán)迭代:利用更新后的模型進(jìn)行第二輪篩選,重復(fù)上述過程。

迭代虛擬篩選過程

這種方法的核心在于反饋循環(huán)。上一輪的“最佳”可能不是全局最優(yōu),但它指明了進(jìn)化的方向。結(jié)合遺傳算法,這種方法能像生物進(jìn)化一樣,讓化合物結(jié)構(gòu)在計(jì)算機(jī)中不斷“變異”和“選擇”,最終進(jìn)化出高活性的苗頭化合物。這種方法特別適用于那些初始模型準(zhǔn)確度不高,或者靶點(diǎn)信息匱乏的項(xiàng)目。

3、虛擬篩選與HTS的深度整合:1+1 > 2

在當(dāng)今的藥物發(fā)現(xiàn)管線中,VS與HTS不再是競爭關(guān)系,而是唇齒相依的戰(zhàn)友。將VS整合進(jìn)HTS流程,已成為必然趨勢,二者的結(jié)合能夠產(chǎn)生顯著的協(xié)同效應(yīng)。

經(jīng)典案例分析:諾華(Novartis)的回顧性分析——剔除假陽性

•諾華團(tuán)隊(duì)對(duì)針對(duì)26個(gè)不同靶點(diǎn)(涵蓋激酶、GPCR、PPI等)的約50萬個(gè)化合物的HTS歷史數(shù)據(jù)進(jìn)行了深入挖掘。

•他們利用VS技術(shù)對(duì)HTS的陽性結(jié)果進(jìn)行了分析。結(jié)果發(fā)現(xiàn),大多數(shù)VS預(yù)測出的苗頭化合物(70%~90%)僅針對(duì)單一靶標(biāo)有效,具有很好的特異性。

•這意味著VS可以有效地幫助科學(xué)家識(shí)別并剔除那些在所有實(shí)驗(yàn)中都顯色的“頻繁擊中者”(Frequent Hitters,通常是干擾實(shí)驗(yàn)的假陽性),從而凈化篩選結(jié)果,聚焦于真正的藥物前體。

四、結(jié)語

數(shù)據(jù)規(guī)模的指數(shù)級(jí)爆炸,既是挑戰(zhàn),也是燃料 。深度學(xué)習(xí)與高性能計(jì)算的結(jié)合,讓我們得以模擬蛋白質(zhì)的“誘導(dǎo)契合”效應(yīng),捕捉那些轉(zhuǎn)瞬即逝的結(jié)合口袋 。

未來,隨著生成式AI的進(jìn)一步滲透,藥物發(fā)現(xiàn)或許將徹底告別“試錯(cuò)”模式,走向真正的“理性設(shè)計(jì)”。但無論技術(shù)如何迭代,核心目標(biāo)從未改變:用更快的速度、更低的成本,找到那個(gè)能拯救生命的分子。

       原文標(biāo)題 : 技術(shù)驅(qū)動(dòng)醫(yī)藥進(jìn)化:藥物篩選五次迭代與AI虛擬篩選戰(zhàn)術(shù)全景解析

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    醫(yī)械科技 獵頭職位 更多
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)