引言
自动基线校正方法可以笼统地分为含参数方法和无参数方法.目前,一些常用的含参数方法很多都是基于Whittaker滤波器实现的[.该滤波器的使用大大提高了基线校正算法的速度和灵活性,并且在MATLAB编程中其基础算法仅用几行代码就能实现. 2006年,Cobas等人提出的全自动基线校正方法[,使用连续小波变换结合Whittaker滤波器,解决了低信噪比谱的基线校正难题,然而该方法无法很好地识别宽峰;2012年,鲍庆嘉等人在该基础上提出了一种基于迭代的自动基线校正方法[,其自动基线识别方法(Baseline Recognition with Combination and Improvement, BRCI)结合3种算法的优点,能良好地识别包括宽峰在内的所有谱峰,在基线建模过程采用基于Whittaker滤波器的迭代方法,并引入“准基线点”消除负区域,但该算法在基线非线性失真时可能导致峰区域基线偏低.理论上,最佳的基线拟合方法应该不含参数或参数尽量少,然而实践中,无参数的基线校正方法一般比较难达到理想效果.大部分无参数方法基于多项式拟合,在低信噪比和基线复杂的情况下,多项式拟合方法无法拟合出最佳的基线模型[.最近的研究中,自动迭代移动平均值方法(Automated Iterative Moving Average, AIMA)的基线校正效果比较理想[,然而仍有不足之处,AIMA方法在峰区域容易将基线估计的过高[,导致谱峰强度减小.
1 理论
1.1 自动基线识别
新方法的基线识别结合了BRCI方法和AIMA方法的优点,增加了对峰区域的计算,能更充分地利用峰区域的数据点.
新方法首先利用BRCI方法识别出所有基线和峰信息:其中BRCI方法先使用连续小波变换,目的是得到导数谱并消除基线起伏[,然后利用滑动窗口算法[识别基线点和信 点,最后利用改进的迭代阈值方法识别宽峰[.这个过程将识别出的所有峰分成了多个区域,并且得到其位置信息,然后判断出峰的正负[.峰的正负具体判断过程如下:把峰区域的首尾点的平均值作为峰偏离坐标轴的高度,整个峰区域减去这个值后再找出该峰区域的绝对值高度最高的位置,记该位置的峰值为Hmax,并将|Hmax*σ|作为阈值(σ为比例系数,文献中设为0.1,用户可根据需要适当调整该系数).若Hmax > 0,并且该区域包含的所有负值均不超过阈值,则标记该峰为正峰,否则不标记;若Hmax
识别出峰信息后,为了更好地建立峰区域的基线模型,新方法找到峰区域内的“基线定位点”作为基线点参与后续的基线建模.“基线定位点”的确定主要结合AIMA方法中的迭代平均值算法(Iterative Averaging, IA)实现,并且仅对峰区域进行计算,以下以正峰为例:
第一步,使用AIMA算法中的迭代平均值步骤,拟合出该峰区域的基线,然后选取临时“基线定位点”,具体步骤如下:
记峰区域序列为y,长度为N,首次迭代更新偶数点如下:
$
{y_{i + 1}} = min [{y_{i + 1}},({y_i} + {y_{i + 2}})/2],;i = 1,3,5 cdots ,N – 3,N – 1
$
(1)
第二次迭代更新奇数点如下:
$
{y_{i + 1}} = min [{y_{i + 1}},({y_i} + {y_{i + 2}})/2],;i = 2,4,6 cdots ,N – 4,N – 2
$
(2)
紧接着,去掉首尾点,迭代更新偶数点:
$
{y_{i + 1}} = min [{y_{i + 1}},({y_i} + {y_{i + 2}})/2],;i = 3,5 cdots ,N – 5,N – 3
$
(3)
以此类推,再去掉一次首尾点,迭代更新奇数点:
$
{y_{i + 1}} = min [{y_{i + 1}},({y_i} + {y_{i + 2}})/2],;i = 4,6 cdots ,N – 6,N – 4
$
(4)
当第一个更新点i达到floor(N/2)时,迭代终止,此时峰区域得到一条未最大化谱峰的基线y.对负峰而言,应先将其取反,按上述步骤得到负峰区域的基线后,将得到的基线连同负峰再次取反,使该区域的基线回到原来负峰所在的位置上,以此作为初始信 序列的一部分.负峰区域基线的建立均可按这样两次取反的步骤得到,这样可以保证基线的连续性,以下不再赘述.
根据公式不难发现,基线y低于任何信 点,即在峰区域信 扣除迭代平均值步骤得到的基线不会产生任何负区域.利用这样的优点,新方法选取该基线y的所有局部极小值点,作为临时“基线定位点”.
第二步,新方法将所有临时“基线定位点”及峰的两个边界点进行顺序线性连接,得到一个临时序列y′,并去除“尖峰定位点”,得到满足条件的“基线定位点”.
所谓“尖峰定位点”,即序列y′中的局部极大值点,去除这些点的定位标记.这样做是防止加入裂峰处的局部极小值点,导致所得基线过高,并加快基线建模速度.同时,去掉这样的尖峰定位点并不会影响基线建模效果.
新方法将峰区域的“基线定位点”和非峰区域的基线点一起用于基线建模.同时,获取后续建模过程中将用到的基线ya=min(y, y′).
1.2 基线建模
基线校正的关键步骤是建立基线模型,将原始谱减去基线模型得到没有基线失真的谱图.在以前的基线校正方法中,一般只采用基线识别所得的基线点来进行基线建模.BRCI方法虽然引入“准基线点”参与基线建模,但在无负区域出现的情况下,相当于仅对峰区域进行线性插值,在这种情况下要保证校正正确的前提是峰区域的基线线性失真;若在非线性失真情况下,仅依靠几个“准基线点”并不能很好地建立基线模型.例如,若在峰密集区域基线向上非线性弯曲,线性插值后并不会出现负区域,也即不引入任何“准基线点”,这样得到的基线模型在该区域就会偏低,导致该峰区域峰强度增大,造成校正错误.
新方法加入“基线定位点”参与基线建模,并利用迭代方法消除负区域.基线建模是基于Whittaker滤波器[原理实现的迭代方法.
设信 序列为等间隔的序列y,长度为N,计算得到的基线序列为z,滤波器的权向量序列为w,第m次迭代的目标函数为
$
{Q_m} = sumlimits_{i = 1}^N {{w_m}(i){{[{y_m}(i)-{z_m}(i)]}^2}} + lambda sumlimits_{i = 2}^{N – 1} {{{[Delta {z_m}(i)]}^2}}
$
(5)
(5)式中,权向量$ {w_m}left( i right) = left{
1,代表基线点0,代表峰数据点 right. $.
(5)式中的第一项代表信 保真度,即所得的基线偏离原始数据的程度,用$ S = sumnolimits_i {w(i){{[y(i)-z(i)]}^2}} $来表示,并用权向量w(i)来区分第i个点属于基线还是峰;第二项代表基线序列z的平滑度,使用差分的平方和表达为$ R = sumnolimits_i {{{[Delta z(i)]}^2}} $,其中一阶差分$ Delta z(i) = z(i)-z(i-1) $.为了寻找保真度和平滑度这两个相互矛盾的目标的整体平衡点,该算法引入了一个目标函数:Q=S+λR[,其中λ是用户参数,代表平滑系数.平滑系数λ的值越大,平滑度R对于目标函数Q的影响就会越大,基线z就会越平滑(以z越偏离信 序列y为代价),反之亦然.该算法基于补偿最小二乘原理,目的是找到使目标函数Q最小的序列z,数学上通过求解$ frac{{partial Q}}{{partial z}} = 0 $来实现[.
首次迭代时,将基线识别过程得到的基线点和“基线定位点”的权值设为1,其余信 点的权值设为0,得到初始权向量w1.
初始信 序列y1由基线区域的数据点和峰区域的初始基线组成.峰区域的初始基线利用AIMA方法中的迭代平均值平滑(Iterative Averaging Smoothing, IAS)步骤得到:将自动基线识别过程(上文1.1小节)最后一步得到的基线ya,经IAS步骤处理后得到序列基线yb,则峰区域$ {y_1} = {rm{min}}({y_a}, {y_b}) $.
首次迭代得到基线模型为z1.计算此次信 序列和基线模型的基线差值$ {D_1} = {y_1}-{z_1} $.若D1存在负区域,则进行第二次迭代.
第二次迭代,标记D1负区域中的局部极小值点为“基线定位点”(设该点权值为1),得到新的权向量序列w2.这个过程同时也消除了一些因谱峰识别错误而产生的负区域,这部分负区域中的“基线定位点”效果等同于BRCI方法的“准基线点”.
不改变基线数据点,令峰区域$ {y_2} = {rm{min}}({y_1}, {z_1}) $,得到第二次迭代的信 序列y2.第二次迭代得到基线模型z2,判断$ {D_2} = {y_2}-{z_2} $是否仍有负区域,有则继续迭代,直到第m次迭代Dm不存在负区域时终止,最后这次迭代得到的基线zm即为最终基线模型.
1.3 基线校正过程示意图
新方法的算法流程图见
图 2 新方法改进部分的处理过程示意图,(a)原始NMR谱经迭代平均值计算后得到的基线,(b)顺次线性连接峰区域的所有局部极小值点,求出“基线定位点”[仅显示(a)中方框所示范围,“▲”代表基线定位点],(c)基于移动均值平滑算法得到的峰区域初始基线[仅显示(a)中方框所示范围],(d)迭代后得到的基线模型, (e)校正后的谱图
Fig. 2 An illustration for processing procedure of the new method, (a) baseline built by using Iterative Averaging on the original NMR spectrum, (b) linearly connect all local minimal points and find out ‘baseline anchor points’ [Only shows the region within the rectangle in (a), ‘baseline anchor points’ are denoted by ‘▲’], (c) an initial baseline built based on Iterative Averaging Smoothing [Only shows the region within the rectangle in (a)], (d) baseline model after iteration, (e) resulted spectrum after baseline corrected
2 讨论
2.1 基线严重非线性失真情况下的校正
对一个由于时间域信 前几个数据点损坏导致基线较大程度非线性失真的一维谱图进行基线校正,
图 4 3种不同方法在不同情况下的基线建模结果对比,A,B,C区域分别代表低信噪比、谱峰密集和峰形良好3种情况(BRCI方法和新方法的平滑系数均设置为λ=600)
Fig. 4 A comparation of baseline models built by the three different methods under different situations. A, B, C respectively represent three situations: low SNR, crowed peaks and well-behavior peaks. (The smoothing factors of BRCI method and new method are both set as λ=600)
在低信噪比和峰形良好的情况下,新方法和BRCI方法的校正结果相近,均为线性,而AIMA方法在这两种情况下得到的基线比其他两种方法偏低.这可能是由于AIMA方法所得的基线低于任何噪声,而其他两种方法所得的基线在噪声的平均值位置;在谱峰密集的情况下,AIMA方法所得的基线偏高,BRCI方法得到的基线为直线,新方法得到的基线能较好地贴合峰底部,又不会导致基线偏高.
2.3 平滑系数对基线建模结果的影响
由于存在谱峰重叠,对比λ的改变,BRCI方法在该区域的建模结果并不会改变(由于不出现负区域,在峰区域建模结果始终为直线),而新方法所得的基线贴合底部的程度却会变化,用户可以利用这个性质,选择合适的参数建立理想的基线模型.
使用不同的平滑系数,用新方法对λ对新方法基线建模结果的影响.从结果可以看到,随着平滑系数的增大,新方法所得基线逐渐偏离峰底部:当平滑系数λ过小时会导致基线过高(λ=400),而系数越大,新方法所得的基线结果越趋向线性插值.图中,当λ=3 200时所得的基线几乎为线性,与
图 6 BRCI方法和新方法对1D 13C NMR谱的基线校正,(a)两种方法的基线建模结果(平滑系数均为λ=10 000),(b)两种方法基线校正后的谱图
Fig. 6 Baseline correction of 1D 13C NMR spectra by BRCI and new methods, (a) baseline models (b) resulted spectra after baseline corrected
实验过程中,两种方法均保持相同的平滑系数,当平滑系数设置较大的值时能同时得到较好的基线结果,当λ=10 000时分别得到
设置不同的平滑系数,用BRCI方法和新方法分别对上面的数据进行处理,得到

图 7 BRCI方法和新方法在不同平滑系数下对碳谱的基线建模结果对比
Fig. 7 A comparation of baselines built by BRCI method and new method with different smoothing factors
对比第一列图可以发现,平滑系数越大,BRCI方法在峰区域得到的基线越理想.而当平滑系数太小时,BRCI方法在峰区域得到的基线偏离理想值,导致基线校正后峰强度增大.经分析,这可能是由于BRCI方法在峰区域所得的基线不靠或仅靠少数个“准基线点”建立,面对碳谱这样噪声较大的谱时容易受噪声影响,使得基线建模不理想.对比第二列图,新方法在变化范围较大的参数值下所得的基线建模结果都相近,除了基线的平滑度不同外基本区别不大.
通过上述的对比,不难发现在对碳谱的基线建模过程中,新方法对参数的依赖程度低,相比BRCI方法能节约更多的参数调试时间,并且不容易产生校正错误.
4 总结
相关资源:Yalefree雅乐简谱打谱软件_打谱软件-WindowsServer工具类资源…
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!