邢江寬,王海鷗,羅坤,白云,樊建人
(浙江大學能源清潔利用國家重點實驗室,浙江杭州310027)
摘要:基于大量已發表的生物質熱解實驗數據,采用數值方法擬合全局反應熱解模型的動力學參數,建立生物質熱解的訓練和驗證數據庫,并利用隨機森林算法研究生物質熱解動力學參數與生物質種類和加熱條件之間的非線性關系,發展預測生物質熱解動力學參數的隨機森林模型。訓練和驗證的結果顯示:隨機森林模型能夠較好地預測訓練數據庫中的生物質熱解的動力學參數(R2>0.92),并能夠準確預測驗證數據庫中的多種生物質的熱解過程(R2>0.93)。此外,變量重要性分析結果顯示:纖維素質量分數對于反應級數和活化能影響較大,木質素對于反應級數的影響最大。加熱條件對于活化能的影響可以忽略,但是對指前因子和反應級數的影響顯著。
生物質能源相比傳統的化石能源具有可再生性。同時,相比其他可再生能源,生物質是唯一可轉化成固態、液態和氣態燃料及其他化工燃料或產品的碳能源。因此生物質能的利用是二十一世紀能源發展的主要研究方向之一。當前生物質熱化學轉化方式主要有燃燒、氣化和熱解等[1],而熱解是生物質的眾多熱化學轉化方式的基礎,一直以來,生物質的熱解過程及其模型構建都是學者們研究的重點。
生物質熱解是一個非常復雜的物理化學過程,涉及到復雜的化學組分(纖維素、半纖維素和木質素)和反應路徑。國內外的學者開展了大量的實驗研究,提出了針對生物質熱解表觀失重動力學模型,比如分布式活化能模型[2]。近期一些學者提出了微觀網絡類的生物質模型,例如化學滲透揮發分模型[3]和動力學蒙特卡洛模型[4],對熱解的詳細組分信息作了預測。但是需要注意的是,在上述模型研究中,針對的生物質種類以及所處的加熱條件都十分有限,因此這些模型的動力學參數不具備生物質種類和加熱條件的通用性。事實上,生物質熱解的動力學與生物質種類(化學成分)及其所處的加熱條件存在非常復雜的非線性關系。這種非線性關系對于提出通用的生物質熱解模型至關重要,但是至今還沒有完全被認知,需要進一步的研究[5]。
一些學者采用了傳統的經驗擬合方法來研究這種非線性關系[6-7],但是結果顯示,采用傳統擬合方法發展的經驗擬合表達式不能很好地表達這種關系[5]。隨著人工智能方法的提出和發展,發現神經網絡[8]、隨機森林[9]等算法被能夠較好地處理非線性問題。最近Xing等[10-11]采用神經網絡建立了煤粉熱解動力學參數與煤種、加熱條件之間的非線性關系,準確預測了不同煤種在廣泛加熱條件下的熱解過程。Lei等[12]采用隨機森林模型較為精確地預測了煤粉自燃現象。針對生物質熱解,Sunphorka等[13]采用神經網絡(artificial neural net-work,ANN)方法來研究動力學參數與生物質種類之間的非線性關系,但忽略了加熱條件的影響,且提出的模型只在一種生物質上加以驗證,其通用性有待商榷。作為目前最先進的集成人工智能算法之一,隨機森林方法的應用潛力很大。
本文首次嘗試利用該方法建立生物質熱解的動力學參數與生物質化學組成及其所處加熱條件之間的非線性關系?;诖罅恳寻l表的生物質熱解實驗數據,并采用數值方法擬合全局反應熱解模型的動力學參數,建立生物質熱解的訓練和驗證數據庫。利用隨機森林(random forest,RF)算法,建立生物質的化學組成和加熱條件與動力學參數的復雜非線性關系,發展預測生物質熱解動力學參數的隨機森林模型,并在驗證數據庫上對該模型的準確性進行驗證。此外采用排列精度重要性方法研究生物質化學組成與加熱條件對于其熱解動力學參數的相對影響大小。
1生物質熱解的數學描述
生物質熱解過程是極為復雜的物理和化學過程,涉及到其不同化學組分之間的相互作用,并且受加熱條件的影響較大。本文采用的熱解動力學的架構是基于反應級數的全局反應,該架構已經被廣泛使用在生物質熱解動力學的研究中[14-15],其具體的表達式如下:

本文采用1stopt軟件[17-18],基于實驗數據,通過擬合得到特定生物質相應工況下熱解過程的動力學參數n、K和E。

圖1顯示了桉樹葉(eucalyptusleaves,EL)在2種不同加熱速率條件下利用擬合出的動力學參數預測的熱解過程和實驗值的比較,其中實驗值來源于文獻[19],預測的熱解過程是利用擬合后的動力學參數(n、K和E),結合已知的升溫速率,通過式(1)計算得出。該生物質中纖維素、半纖維素和木質素的質量分數分別為11.28%、17.93%和9.25%,在不同加熱條件下擬合出的動力學參數如表1所示。從圖1中可以發現,實驗結果和擬合結果吻合得很好,相關系數在0.98以上。這說明本文采用的擬合方法可以準確獲得熱解動力學參數,也為后續的模型發展奠定了基礎。需要說明的是,本研究樣本庫中的生物質熱解結果均來自于實驗測量,采用何種生物質熱解動力學架構進行動力學參數擬合不是本文的研究重點。不同的動力學架構,如分布式活化能等,可能會產生不同的熱解動力學參數。本文的研究重點在于對動力學參數與生物質化學組成和加熱條件的非線性關系的建模研究,且本文的建模方法同樣適用于不同的生物質熱解動力學架構。

一般地,生物質熱解的動力學參數φ(在本文中指熱解反應的活化能(E)、指前因子(K)和反應級數(n))與生物質化學組成和其所處加熱條件之間的非線性關系可表示為

2研究方法
2.1隨機森林方法

隨機森林算法是由多棵分類回歸樹(classific-ation and regression tree,CART)組合構成的新型機器學習算法[9]。如圖2所示,首先,采用有放回(bootstrap)抽樣技術有放回地從原始數據集中隨機抽取N個訓練樣本,每個訓練集的大小約為原始數據集的2/3[22],剩余的未被選中的數據稱為袋外(outofbag,OOB)的數據,OOB數據不參與回歸樹的訓練;然后,分別為每個訓練集建立分類回歸樹,產生由Ntree棵CART決策樹組成的森林,在每棵樹生長過程中,從全部M個特征變量中隨機抽選m個(m≤M),在這m個屬性中根據Gini系數最小原則選出最優屬性進行內部節點分支;最后,集合Ntree棵決策樹的預測結果,對于分類問題,采用結果的眾多樹投票結果的眾數作為分類的結果,對于回歸問題,采用眾多樹的預測值的平均值作為回歸的預測結果。
在本文的研究中,纖維素、半纖維素和木質素的質量分數被用來表征生物質種類的影響,熱解速率被用來表征加熱條件的影響。需要說明的是,為了保留所有影響因素的特征,m的值設置為4。此外,袋外的數據的誤差被用來作為評判標準,通過試錯法來確定最優化的分類回歸樹的數目:

2.2樣本庫
基于大量已發表的生物質熱解實驗數據,本文分別建立了用于訓練隨機森林模型的訓練數據庫和用于驗證提出的隨機森林模型的驗證數據庫。訓練和驗證的數據分布可見圖3,其中左側的散點表示樣本中參數的值。右側代表樣本數據的統計信息:倒三角表示最大值,正三角表示最小值,菱形代表中位數的值,方框內的橫線代表平均數的值,詳細的訓練和驗證數據庫信息見附錄文件。訓練數據庫一共包含115個樣本,其中樣本的纖維素,半纖維素,木質素和加熱速率的值的分布范圍分別為0~100%、0~100%、0~100%和2~80K/min。驗證數據庫一共包含48個樣本,這48個樣本均沒有包含在訓練數據庫中,其中纖維素,半纖維素,木質素和加熱速率樣本的分布范圍分別為14.59%~53.60%、4.83%~55.92%、4.88%~45.59%和5~60K/min。

需要說明的是,由于生物質的化學組成和加熱速率具有不同的量綱,所有的輸入參數都需要進行一個無量綱化的預處理[23],具體的方法如下:

3結果和分析
3.1隨機森林模型訓練結果

在發展生物質熱解的隨機森林模型過程中,最優的樹的數目Ntree-best需要經過試錯法進行確定。在本文中,測試的樹的數目為1~300棵,優化的指標為OOB數據的預測誤差。圖4顯示了測試的結果,可以發現對于所有的動力學參數,隨著樹的數目的增加,袋外數據的預測誤差先急劇下降,然后保持平穩,相關性系數先逐漸增加然后也保持平穩。最優化的樹的數目的評判指標即是以較少的分類回歸樹,獲得較好的預測結果。針對log(n)、log(E)和log(K),最優化的樹的數目分別為139、120和123,最優的相關性系數分別為0.9231、0.9572和0.9830。

圖5顯示了RF模型的對于整個訓練數據庫的訓練結果,其中縱軸為預測值,橫軸為實驗值。從圖中可以看出,對于3個動力學參數,其訓練結果的相關性系數都達到了0.92以上,對于指前因子甚至達到了0.98,這表明RF模型能夠很好地表征生物質熱解動力學參數和生物質化學組成及加熱條件間的復雜的非線性關系。但需要指出的是,對于反應級數的訓練結果相對較差,這和Sunphorka等[13]采用ANN方法的研究結果相一致,這說明了反應級數與生物質種類、加熱速率具有更加強烈的非線性關系。這可能是由于生物質熱解過程中多組分的多個反應路徑造成的,在未來的研究中可以考慮采用多步機理的熱解動力學架構來提高對于化學反應級數的預測。
3.2隨機森林模型驗證結果

為了檢驗訓練出的RF模型對不同生物質種類和加熱條件下的熱解動力學參數的預測能力,采用訓練出的RF模型對驗證數據庫內的樣本的熱解動力學參數進行預測,并與從實驗值擬合得到的動力學參數進行比較,比較的結果如圖6所示??梢园l現對于驗證數據庫的樣本,RF模型能夠很好的預測3個動力學參數,對log(n)、log(E)和log(K)的預測,其相應的相關性系數分別為0.9628,0.9685和0.9343,均超過了0.93。綜上,本文提出的RF模型能夠很好地預測生物質熱解的動力學參數與化學組成和加熱條件之間的非線性關系。此外RF模型預測結果的相關性系數要優于Sunphorka等[13]提出的ANN方法,且在更多的生物質和加熱條件下得到了驗證,說明了RF模型的通用性較ANN方法要好。
除了進行預測的動力學參數的比較,本文還采用由RF模型預測的動力學參數,利用式(1),對2種不同生物質(桉樹皮,eucalyptus bark,EB;桉樹木屑,eucalyptus sawdust,ESD)在不同加熱條件下的熱解過程進行預測,并與實驗值進行比較。

圖7展示了采用RF模型預測的動力學參數計算出的生物質熱解過程和實驗值的比較結果,可以發現所預測的熱解過程與實驗值吻合較好。這也更進一步驗證了采用隨機森林方法所得到的非線性關系能夠較好地反應生物質的化學組成和加熱條件對于熱解過程的影響。
3.3相關性分析
生物質的化學組成和加熱條件對于生物質的熱解過程有著很明顯的影響,但是對于這種影響的相對大小,至今還沒有定量或者定性的描述?;谔岢龅腞F模型能夠較好地描述熱解過程,本文采用序列精度重要性方法(permutation accur-acy importance,PAI)來研究不同影響因素的相對影響力η[24]。需要說明的是,由于隨機森林算法隨機選擇OOB數據,且PAI方法隨機置換OOB數據樣本間兩兩的特征信息,在這2個隨機過程的綜合作用下,動力學參數的補償作用對結果的影響不大。

圖8顯示了生物質的化學組成和加熱條件對于每一個動力學參數的相對影響大小??梢钥闯觯瑢τ跓峤夥磻闹盖耙蜃?,半纖維素和木質素的質量分數起到了至關重要的影響,且升溫速率和纖維素質量分數的影響相當。對于熱解反應的活化能,纖維素的質量分數影響最大,而升溫速率的影響基本可以忽略。對于反應級數,纖維素和半纖維素的質量分數影響最大,升溫速率和木質素的影響相對較小。
4結論
?。?)訓練的結果顯示,隨機森林模型能夠較好地預測不同加熱條件下生物質熱解的動力學參數。基于訓練數據庫的相關性系數達到0.92以上,說明對于訓練庫RF模型能夠很好地描述熱解動力學參數與生物質化學組成和加熱條件之間的非線性關系。
?。?)RF模型的驗證結果表明,RF模型預測出的動力學參數與實驗擬合值吻合的很好,其相關性系數大于0.93,且采用RF模型計算出的動力學參數能夠獲得與實驗值很接近的生物質熱解過程。需要說明的是,本文收集的樣本數量有限,在后續的工作中將收集更多的訓練和驗證樣本,拓展RF模型的訓練和驗證數據庫,進一步驗證和提高隨機森林算法,預測生物質熱解的動力學參數的能力。
(3)變量重要性分析結果顯示,對于熱解反應的指前因子,半纖維素和木質素的質量分數起到了至關重要的影響,且升溫速率和纖維素質量分數的影響相當。對于熱解反應的活化能,纖維素的質量分數影響最大,而升溫速率的影響基本可以忽略。對于反應級數,纖維素和半纖維素的質量分數影響最大,升溫速率和木質素的影響相對較小。

 |