通過(guò)深度學(xué)習(xí)改進(jìn)自動(dòng)化NMR集成
在這次采訪中,,數(shù)據(jù)科學(xué)家Federico Paruzzo討論了Bruker如何使用深度學(xué)習(xí)來(lái)開(kāi)發(fā)新命令,,以及它與其他可用方法的比較。Federico還將介紹Sigreg,,第一個(gè)基于機(jī)器學(xué)習(xí)的1H NMR譜自動(dòng)信號(hào)區(qū)域檢測(cè),這是Bruker的TopSpin軟件的最新版本,。
利用NMR,,對(duì)每個(gè)信號(hào)區(qū)域進(jìn)行檢測(cè)和整合是非常重要的,。然后你可以使用這些信息來(lái)量化你的化合物,,例如,或者做松弛測(cè)量,。目前有幾種使用TopSpin的方法,。
您需要做的就是打開(kāi)一個(gè)數(shù)據(jù)集,?;蛘?,您可以使用integration命令,,它將打開(kāi)您的integration窗口。從這里開(kāi)始,,您可以定義每個(gè)新區(qū)域,,然后分別對(duì)頻譜中的每個(gè)區(qū)域進(jìn)行集成,,并在完成之后保存更改。這將打開(kāi)您的集成系統(tǒng),。
然而,這個(gè)過(guò)程可能是耗時(shí)和令人沮喪的,。整合一個(gè)簡(jiǎn)單的光譜可能需要20到25秒,,但想象一下,,如果你需要在一天內(nèi)處理幾十個(gè)光譜,。當(dāng)你需要處理更復(fù)雜的光譜時(shí),,它需要更長(zhǎng)的時(shí)間,。
有一些方法可以自動(dòng)完成這種集成,。例如,您可以通過(guò)鍵入“int auto”或單擊auto integration按鈕來(lái)使用TopSpin中的auto-integration命令,。
但是,結(jié)果不是最優(yōu)的,,并且與我們手動(dòng)操作的結(jié)果不太匹配,。特別是,這個(gè)命令依賴于許多參數(shù),,如果對(duì)所有參數(shù)進(jìn)行微調(diào),,可以得到更好的結(jié)果
然而,這種微調(diào)是非常耗時(shí),、繁瑣的,,它可以防止使用這個(gè)命令自動(dòng)集成許多不同的頻譜。
另一種選擇是apbk命令,。apbk命令是Topspin中引入的一個(gè)新命令,,用來(lái)對(duì)X核的光譜進(jìn)行自動(dòng)相位和基線校正。
現(xiàn)在,,你可能會(huì)說(shuō)這并不意味著在整個(gè)頻譜上使用,,這是正確的。但是您可以使用插頭“-f”強(qiáng)制apbk命令在總頻譜上工作,。
如果你這樣做,,你會(huì)看到信號(hào)區(qū)域探測(cè)器。但是,這個(gè)結(jié)果與您手動(dòng)選擇的結(jié)果相去甚遠(yuǎn),。這并不奇怪,。同樣,apbk命令并不意味著在整個(gè)頻譜上工作,。因此,,這不是手工集成的替代方法。
圖片來(lái)源:傷風(fēng)/ angellodeco
我們團(tuán)隊(duì)面臨的挑戰(zhàn)是問(wèn):“我們能做得更好嗎?”“我們能不能開(kāi)發(fā)一個(gè)命令,,不需要對(duì)這么多參數(shù)進(jìn)行微調(diào),就能以用戶的方式進(jìn)行集成?”
為了做到這一點(diǎn),,我們訓(xùn)練了一個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)解釋核磁共振波譜使用監(jiān)督學(xué)習(xí),。為此,我們需要大量的訓(xùn)練數(shù)據(jù),,包括許多核磁共振波譜與相應(yīng)的標(biāo)簽,,我們要學(xué)習(xí)的屬性,在這種情況下是信號(hào)區(qū)域,。
然后我們需要?jiǎng)?chuàng)建我們的深層神經(jīng)網(wǎng)絡(luò),。通過(guò)給我們的訓(xùn)練集神經(jīng)網(wǎng)絡(luò),我們訓(xùn)練我們的神經(jīng)網(wǎng)絡(luò),。一旦網(wǎng)絡(luò)被訓(xùn)練,,我們可以得到一個(gè)新的頻譜,把它給網(wǎng)絡(luò),,它將輸出預(yù)測(cè)標(biāo)簽,。
作為訓(xùn)練集,我們使用了50萬(wàn)個(gè)人工生成的1H NMR譜,。
我們使用不同的基本頻率,,從80到800兆赫,以產(chǎn)生頻譜的信號(hào)與噪音的比率,,并與強(qiáng)度的償付能力,。
我們決定使用卷積神經(jīng)網(wǎng)絡(luò),靈感來(lái)自于U-Net,。U-Net是一種全卷積神經(jīng)網(wǎng)絡(luò),,用于生物醫(yī)學(xué)領(lǐng)域的圖像分割。
通過(guò)將網(wǎng)絡(luò)和訓(xùn)練集結(jié)合起來(lái),,我們創(chuàng)建了sigreg,,這是TopSpin中第一個(gè)基于機(jī)器學(xué)習(xí)的命令。它將允許你在1H NMR譜中做一個(gè)全自動(dòng)無(wú)參數(shù)信號(hào)區(qū)域探測(cè)器,。
為了測(cè)試這個(gè)算法的局限性,,我們創(chuàng)建了一個(gè)簡(jiǎn)單的光譜,一個(gè)僅由7.5 ppm的單一信號(hào)中心組成的人工光譜。然后我們測(cè)試了模型的信噪比,、溶劑強(qiáng)度和線寬,。
深度學(xué)習(xí)在核磁共振中的應(yīng)用
對(duì)信噪比測(cè)試。我們保持了信號(hào)化合物的強(qiáng)度,,并改變了噪聲值,,以匹配不同的信噪比值。
Sigreg在100和20的信噪比下表現(xiàn)很好,。在信噪比為10的情況下,,sigreg仍然能夠確定峰值,但是這個(gè)值有點(diǎn)模糊,,因?yàn)檫@是我們的訓(xùn)練集的極限,。
結(jié)果,當(dāng)信噪比低于10時(shí),,它就不能檢測(cè)峰值了,。我們將繼續(xù)開(kāi)發(fā)這個(gè)算法,因此,,在未來(lái),,如果我們可以使用更低的信噪比,我不會(huì)感到驚訝,。
溶劑強(qiáng)度測(cè)試,。我們稍微改變了我們的興趣峰值,從7.5 ppm到7.3 ppm,,并添加了第二個(gè)峰值,其強(qiáng)度高于我們的另一個(gè)峰值,,以模擬溶劑的存在,。
對(duì)于我們所有的光譜,我們保持感興趣峰的信噪比不變,,并改變?nèi)軇┑膹?qiáng)度,。當(dāng)溶劑的容量是興趣峰值的10倍或100倍時(shí),Sigreg可以很好地工作,。當(dāng)溶劑比我們的峰值大3階或更大時(shí),,sigreg仍然能夠探測(cè)到我們的信號(hào)。
然而,,如果檢測(cè)的限制更高,,檢測(cè)的區(qū)域就會(huì)更廣,sigreg就會(huì)變得更不準(zhǔn)確,。如果溶劑是我們感興趣的信號(hào)的十倍以上,,那么sigreg就不能再檢測(cè)到信號(hào)了。
測(cè)試線寬。同樣,,我們?nèi)∫粋€(gè)單峰,,保持強(qiáng)度不變。我們還保持了信號(hào)噪聲電平不變,,只是改變了峰值的線寬,。Sigreg在從5到500 Hz的線寬范圍內(nèi)表現(xiàn)良好。
為了評(píng)估我們的模型的性能,,我們?cè)?00個(gè)實(shí)驗(yàn)核磁共振波譜上運(yùn)行了sigreg,。我們的核磁共振專家對(duì)實(shí)驗(yàn)譜中的信號(hào)進(jìn)行了標(biāo)記。
我們發(fā)現(xiàn)我們的專家檢測(cè)到的信號(hào)數(shù)量與sigreg檢測(cè)到的信號(hào)數(shù)量有很好的相關(guān)性,。Sigreg給出了一個(gè)很好的結(jié)果,。我們的大多數(shù)點(diǎn)都在這條完全相關(guān)的直線上。
圖片來(lái)源:傷風(fēng)/ Lisa-S
Int auto給出了合理的結(jié)果,,但是與sigreg和專家的協(xié)議相比,,專家和Int auto之間的協(xié)議要低得多。
另一方面,,apbk傾向于重拾信號(hào),,這意味著它檢測(cè)到的信號(hào)比專家少。這并不奇怪,,因?yàn)閍pbk并沒(méi)有被開(kāi)發(fā)用于80 MHz到1.2 GHz范圍內(nèi)的1H NMR譜,。在Bruker,我們還對(duì)添加一個(gè)在廣泛的基頻范圍內(nèi)執(zhí)行良好的命令非常感興趣,。
我們的25個(gè)光譜是在80兆赫獲得的,,75個(gè)是在更高的頻率獲得的,從300兆赫或更高的頻率開(kāi)始,。Sigreg對(duì)80兆赫頻譜和int auto給出了很好的結(jié)果,,結(jié)果是合理的。盡管apbk傾向于更嚴(yán)重地接收在80mhz頻率下獲得的光譜,。
即使峰值的數(shù)量給了我們一個(gè)關(guān)于這個(gè)算法如何工作的想法,,它并沒(méi)有真正給出一個(gè)關(guān)于準(zhǔn)確性的想法。這就是為什么,,為了估計(jì)模型的性能,,我們決定計(jì)算每個(gè)頻譜的F1值。
如果你不熟悉這個(gè)概念,,F(xiàn)1分?jǐn)?shù)是一個(gè)度量標(biāo)準(zhǔn),,用于統(tǒng)計(jì)分析來(lái)評(píng)估這個(gè)模型的準(zhǔn)確性。F1成績(jī)的優(yōu)勢(shì)在于它依賴于精確性和回憶性,。精度告訴我們?cè)谶@些區(qū)域中有多少信號(hào)區(qū)域被檢測(cè)到,。這是由真陽(yáng)性給出的,,檢測(cè)到的信號(hào)區(qū)域作為真陽(yáng)性和假陽(yáng)性之和的信號(hào)區(qū)域。誤報(bào)是指檢測(cè)到的噪聲區(qū)域作為信號(hào)區(qū)域,。
而recall告訴我們模型檢測(cè)到多少個(gè)信號(hào)區(qū)域,。這是由真陽(yáng)性(檢測(cè)為信號(hào)的信號(hào))給出的,除以真陽(yáng)性和假陰性的總和,。因?yàn)樨?fù)號(hào)是信號(hào)的區(qū)域,,被檢測(cè)為噪音。
我們計(jì)算了所有100個(gè)光譜的F1值,。在F1得分方面,,與其他兩個(gè)命令相比,Sigreg給出了更好的結(jié)果,。我們對(duì)int auto,、sigreg和apbk -f命令的F1平均得分為91.8%。但是我們和sigreg的大多數(shù)譜都有超過(guò)95%的F1分?jǐn)?shù),。
另一側(cè)的Int auto的平均F1得分較低,,為87.1%。與sigreg相比,,這個(gè)結(jié)果要廣泛得多,,有些光譜低于60%。
apbk得分最低,,為80%,,傳播率較高。這對(duì)于apbk來(lái)說(shuō)仍然是一個(gè)顯著的結(jié)果,,因?yàn)檫@個(gè)命令并沒(méi)有被開(kāi)發(fā)用于總的NMR譜,。
我們也可以通過(guò)觀察我們?cè)?0mhz下得到的結(jié)果來(lái)檢查這些結(jié)果是如何依賴于基頻的。在自動(dòng)提供一些最好的結(jié)果在低頻,。因此,,80兆赫的頻譜實(shí)際上給出了這個(gè)命令的最佳F1分?jǐn)?shù)。另一邊的Apbk給出了低頻譜的最差結(jié)果,。Sigreg是唯一一個(gè)在廣泛的基頻范圍內(nèi)給出可比結(jié)果的,。
使用sigreg非常簡(jiǎn)單,。你所需要做的就是在TopSpin中打開(kāi)數(shù)據(jù)集,,輸入“sigreg”,然后在幾毫秒內(nèi)獲得信號(hào)區(qū)域檢測(cè)器,。沒(méi)有需要設(shè)置的參數(shù),。還可以使用宏或大寫字母輕松地將圖形包含到自動(dòng)例程中,這些宏或大寫字母可以包含在AU程序中,。
Sigreg研究的是復(fù)雜光譜,。我們已經(jīng)證明,,它也可以很好地檢測(cè)寬峰,并與光譜與大的溶劑峰,。Sigreg也研究有噪聲的光譜,。
當(dāng)談到相位畸變時(shí),sigreg也能夠檢測(cè)出光譜相位的峰值,,前提是相位畸變是合理的,。Sigreg也能很好地處理在低頻率下獲得的光譜,即使在80兆赫也有很好的分辨率,。
Sigreg包含在最新版本的TopSpin中,,所以我們希望您能夠測(cè)試它并將您的反饋發(fā)送給我們。
贊助內(nèi)容策略:News-Medical.net發(fā)布的文章和相關(guān)內(nèi)容可能來(lái)自于我們已有商業(yè)關(guān)系的來(lái)源,,只要這些內(nèi)容能夠?yàn)镹ews-Medical的核心編輯理念增加價(jià)值,。教育和通知對(duì)醫(yī)學(xué)研究,科學(xué),,醫(yī)療設(shè)備和治療感興趣的網(wǎng)站訪問(wèn)者,。