熱門關(guān)鍵字： 宏觀解讀約稿沈良

七禾網(wǎng)首頁(yè) >> 程序化交易 >> 程序化交易技巧心得體會(huì)

大衛(wèi)．阿倫森：基于預(yù)測(cè)模型的交易系統(tǒng)

客觀化系統(tǒng)化的交易金融工具相比主觀方法有許多的優(yōu)勢(shì)：

（1）由于各種認(rèn)知偏差和情緒因素，智能化設(shè)計(jì)的自動(dòng)交易系統(tǒng)可以并經(jīng)常超越主觀交易的績(jī)效。

（2）一個(gè)有效的數(shù)據(jù)挖掘程序可以發(fā)現(xiàn)市場(chǎng)行為中大多數(shù)人看不到的細(xì)微模式。

（3）自動(dòng)化交易系統(tǒng)絕對(duì)是可重復(fù)的，而主觀的交易系統(tǒng)受制于一時(shí)的興致。交易決策的一致性對(duì)于長(zhǎng)期盈利能力至關(guān)重要。重復(fù)性也很有價(jià)值，因?yàn)樗梢詫彶榻灰祝⑼ㄟ^(guò)信號(hào)過(guò)濾來(lái)提供性能。

（4）最適當(dāng)設(shè)計(jì)的自動(dòng)交易系統(tǒng)經(jīng)得起嚴(yán)格的統(tǒng)計(jì)分析的考驗(yàn)，可以評(píng)估性能指標(biāo)，如預(yù)期收益率，以及系統(tǒng)績(jī)效中運(yùn)氣成分的占比。

（5）無(wú)人值守的操縱是可能的。

自動(dòng)交易系統(tǒng)通常用于一個(gè)或兩個(gè)應(yīng)用項(xiàng)目。交易系統(tǒng)合成與提升（Trading System Synthesis and Boosting，TSSB）是一個(gè)先進(jìn)的程序，能夠生成兩個(gè)應(yīng)用：（1）一個(gè)完整獨(dú)立的交易系統(tǒng)，能進(jìn)行所有的交易決策；（2）一個(gè)能夠通過(guò)篩選交易信號(hào)，提高已有交易系統(tǒng)性能的模型。我們稱此為“Boosting”（Boosting是一種提高任意給定學(xué)習(xí)算法準(zhǔn)確度的方法）。這是常有的事，通過(guò)智能化篩選現(xiàn)有交易系統(tǒng)的信號(hào)，同時(shí)忽略掉其他的，我們可以改善收益風(fēng)險(xiǎn)比。

兩種自動(dòng)化交易的方法

無(wú)論投資者的目的是開(kāi)發(fā)一個(gè)獨(dú)立的交易系統(tǒng)或是一個(gè)提高現(xiàn)有交易系統(tǒng)性能的過(guò)濾系統(tǒng)，有兩種常見(jiàn)的開(kāi)發(fā)和實(shí)現(xiàn)方法：（1）基于規(guī)則的方法（If/Then規(guī)則）；（2）預(yù)測(cè)模型。

基于規(guī)則的交易系統(tǒng)需要投資者指定進(jìn)行交易決策的規(guī)則，雖然這些規(guī)則中的一個(gè)或多個(gè)參數(shù)可以利用開(kāi)發(fā)軟件進(jìn)行優(yōu)化得到。下面是一個(gè)簡(jiǎn)單的基于算法的交易系統(tǒng)的例子：如果短期價(jià)格移動(dòng)平均穿越長(zhǎng)期價(jià)格移動(dòng)平均，那么在下一根K線持入多頭頭寸。

隨著高性能計(jì)算機(jī)的普及，一個(gè)替代的交易系統(tǒng)開(kāi)發(fā)方法已經(jīng)變得可行。預(yù)測(cè)建模通過(guò)利用采用復(fù)雜數(shù)學(xué)算法的軟件，檢驗(yàn)來(lái)自歷史數(shù)據(jù)的指標(biāo)，如價(jià)格、成交量、持倉(cāng)量，以發(fā)現(xiàn)具有預(yù)測(cè)能力的重復(fù)模式。預(yù)測(cè)模型本質(zhì)上是一個(gè)數(shù)學(xué)或邏輯公式，建立這些模式與目標(biāo)變量或因變量之間的關(guān)系。這是TSSB所使用的方法，相對(duì)基于規(guī)則的方法，它具有以下幾個(gè)優(yōu)點(diǎn)：

（1）智能建模軟件利用機(jī)器學(xué)習(xí)可以發(fā)現(xiàn)非常復(fù)雜的模式或是隱藏在噪聲之下人們難以發(fā)現(xiàn)的模式。

（2）一旦一個(gè)基于預(yù)測(cè)模型的交易系統(tǒng)開(kāi)發(fā)完成，它通?？梢院苋菀椎恼{(diào)整其操作，改變收益風(fēng)險(xiǎn)比以適應(yīng)更廣的范圍。它可以在高交易頻率低勝算和低勝算高交易頻率之間取得平衡。這可以通過(guò)閥值控制模型預(yù)測(cè)轉(zhuǎn)化為離散的買賣信號(hào)。

（3）設(shè)計(jì)良好的軟件允許開(kāi)發(fā)人員調(diào)整交易系統(tǒng)開(kāi)發(fā)的自動(dòng)化程度。有經(jīng)驗(yàn)的開(kāi)發(fā)者可以對(duì)整個(gè)過(guò)程進(jìn)行良好的控制，把他們的知識(shí)轉(zhuǎn)換為系統(tǒng)某些所需的屬性；而缺乏經(jīng)驗(yàn)的開(kāi)發(fā)人員可以利用軟件，完全自動(dòng)化的來(lái)實(shí)現(xiàn)整個(gè)過(guò)程。

（4）一般來(lái)說(shuō)，預(yù)測(cè)模型比基于規(guī)則的系統(tǒng)開(kāi)發(fā)方法更能經(jīng)受高級(jí)統(tǒng)計(jì)分析的檢驗(yàn)。檢驗(yàn)系統(tǒng)統(tǒng)計(jì)顯著性的復(fù)雜分析算法可以更容易被納入模型生成過(guò)程。

（5）預(yù)測(cè)建模是一個(gè)發(fā)展良好的數(shù)學(xué)學(xué)科，用于從數(shù)據(jù)集中最大量的提取有用的信息。直覺(jué)有助于提出方法以將原始數(shù)據(jù)集轉(zhuǎn)換出大型候選指標(biāo)列表。預(yù)測(cè)建模，即使是最簡(jiǎn)單的形式，如線性回歸，也比靠人類直覺(jué)選擇最好的候選指標(biāo)并合成預(yù)測(cè)要更優(yōu)。有150多名學(xué)者研究比較人類專家的統(tǒng)計(jì)模型，證明了這一事實(shí)。

預(yù)測(cè)模型

用預(yù)測(cè)模型方法開(kāi)發(fā)交易系統(tǒng)依賴于市場(chǎng)價(jià)格運(yùn)動(dòng)的基本屬性：所有市場(chǎng)都有會(huì)重復(fù)出現(xiàn)的模式，因此，可以用來(lái)預(yù)測(cè)未來(lái)價(jià)格行為。例如，在一定條件下，趨勢(shì)將持續(xù)直到力度耗盡。在其他情況下，不同的模式將出現(xiàn)，趨勢(shì)后面更可能伴隨著回歸近期均值的走勢(shì)。預(yù)測(cè)模型研究歷史市場(chǎng)數(shù)據(jù)，試圖發(fā)現(xiàn)特征以區(qū)分這兩種模式。

預(yù)測(cè)模型的目標(biāo)然后是發(fā)現(xiàn)足以盈利的重復(fù)出現(xiàn)的模式。一旦發(fā)現(xiàn)，模型將尋找該模式的再次發(fā)生。基于歷史觀察，模型將能夠用于預(yù)測(cè)市場(chǎng)是否會(huì)快速上升、下降或盤整。這些預(yù)測(cè)可以通過(guò)閥值轉(zhuǎn)化為買賣的決策。

指標(biāo)變量和目標(biāo)變量

預(yù)測(cè)模型通常不直接使用原始市場(chǎng)數(shù)據(jù)。相反，市場(chǎng)價(jià)格和其他序列，如交易量，通常會(huì)轉(zhuǎn)換成兩類變量，指標(biāo)變量和目標(biāo)變量。這是在模型訓(xùn)練、檢驗(yàn)以及最終實(shí)盤交易的時(shí)候使用的數(shù)據(jù)。正是在這些變量的定義過(guò)程中，開(kāi)發(fā)人員對(duì)交易系統(tǒng)發(fā)揮著他們的作用。

指標(biāo)變量是嚴(yán)格按時(shí)間向后推移的。當(dāng)進(jìn)行實(shí)時(shí)交易時(shí)，對(duì)于任意給定的K線都將對(duì)指標(biāo)進(jìn)行計(jì)算，假設(shè)我們擁有足夠的歷史價(jià)格數(shù)據(jù)可以滿足對(duì)指標(biāo)的定義。例如，有人可能用當(dāng)根K線的收盤價(jià)與回溯第5根K線的收盤價(jià)的變化百分比來(lái)定義趨勢(shì)。只要我們知道這兩個(gè)價(jià)格，我們就可以計(jì)算出這個(gè)趨勢(shì)指標(biāo)。TSSB可以計(jì)算出上百種不同類型的指標(biāo)以對(duì)市場(chǎng)行為特征進(jìn)行量化度量。

目標(biāo)變量是嚴(yán)格按時(shí)間向前推移的。（在經(jīng)典回歸模型中，目標(biāo)通常指的是因變量。）目標(biāo)揭示出未來(lái)的市場(chǎng)行為。我們可以利用歷史數(shù)據(jù)計(jì)算目標(biāo)變量，只要我們有足夠的未來(lái)數(shù)據(jù)滿足對(duì)目標(biāo)變量的定義。顯然，雖然當(dāng)我們真正交易這些系統(tǒng)的時(shí)候，我們并不知道這些目標(biāo)，除非我們有一個(gè)非凡的水晶球。例如，我們可以定義一個(gè)稱為day-return的指標(biāo)，表示第三天開(kāi)盤價(jià)相對(duì)第二天開(kāi)盤價(jià)的變動(dòng)百分比。如果我們有價(jià)格的歷史記錄，我們可以在每一根K線上計(jì)算出這個(gè)目標(biāo)，除了最后兩根K線。TSSB可以計(jì)算各種類型的目標(biāo)變量。

總之，預(yù)測(cè)模型背后的基本思想是，指標(biāo)可能包含可用于預(yù)測(cè)目標(biāo)的信息。預(yù)測(cè)模型的任務(wù)就是尋找和利用任何此類信息。

預(yù)測(cè)模型背后的基本思想是指標(biāo)可能包含可以用來(lái)預(yù)測(cè)前瞻性變量（稱為目標(biāo)變量）的信息。預(yù)測(cè)模型的任務(wù)是尋找和利用任何此類信息。

日期趨勢(shì)性波動(dòng)率日回報(bào)率

20130214 0.251 1.572 0.144

20130215 0.101 1.778 0.055

20130216 -0.167 2.004 -0.013

…

假設(shè)我們使用幾年的數(shù)據(jù)建立模型，并讓它學(xué)習(xí)如何用前一期的兩個(gè)指標(biāo)，趨勢(shì)性和波動(dòng)率，來(lái)對(duì)日回報(bào)率進(jìn)行預(yù)測(cè)。在機(jī)器學(xué)習(xí)中，這個(gè)過(guò)程對(duì)應(yīng)的術(shù)語(yǔ)稱為模型的訓(xùn)練。然后，我們可以利用近期價(jià)格計(jì)算出當(dāng)期趨勢(shì)性等于0.225，波動(dòng)率等于1.244?；谶@些數(shù)據(jù)，訓(xùn)練的模型能預(yù)測(cè)出目標(biāo)變量日回報(bào)率為0.152。（這些都是虛構(gòu)的數(shù)字。）基于對(duì)市場(chǎng)很有可能出現(xiàn)大幅上漲的預(yù)測(cè)，我們可以選擇建立多頭倉(cāng)位。

將預(yù)測(cè)結(jié)果轉(zhuǎn)化為交易決策

直覺(jué)告訴我們，我們應(yīng)該將更多的注意力放在極端預(yù)測(cè)值之上，而非圍繞模型預(yù)測(cè)范圍內(nèi)的常規(guī)值。如果模型預(yù)測(cè)市場(chǎng)明天將上漲0.001%，我們不會(huì)像模型預(yù)測(cè)上漲5.8%那樣建立多頭倉(cāng)位。這種直覺(jué)是正確的，因?yàn)槲覀兊难芯勘砻?，一般?lái)說(shuō)，預(yù)測(cè)波動(dòng)幅度與預(yù)測(cè)的成功率有高度的相關(guān)性。預(yù)測(cè)值較大相比預(yù)測(cè)值較小，更有可能預(yù)示出未來(lái)有利可圖的市場(chǎng)波動(dòng)。做出交易決策的標(biāo)準(zhǔn)方法是比較預(yù)測(cè)值與固定閥值。如果預(yù)測(cè)值大于或等于某一上限閥值（通常為正），則建立多頭頭寸。如果預(yù)測(cè)值小于或等于某一下限閥值（通常為負(fù)），則建立空頭頭寸。頭寸的持倉(cāng)周期隱含在對(duì)目標(biāo)的定義中。很明顯，閥值是在交易次數(shù)和勝率之間的權(quán)衡。如果設(shè)定的閥值接近0，預(yù)測(cè)值將頻繁超過(guò)閥值，從而頻繁觸發(fā)交易，這類交易虧損率相對(duì)比較高。相反，如果設(shè)定的閥值很大，預(yù)測(cè)值將很少能超過(guò)閥值，這樣交易次數(shù)少，勝率也就相對(duì)比較高。我們已經(jīng)注意到，預(yù)測(cè)值大小和交易勝算有很大相關(guān)性。因此，通過(guò)選擇一個(gè)合適的閥值，我們可以控制我們的交易系統(tǒng)。

交易系統(tǒng)合成與提升（Trading System Synthesis and Boosting，TSSB）自動(dòng)選擇最優(yōu)的多頭和空頭閥值，從而最大化多頭系統(tǒng)和空頭系統(tǒng)的盈利因子。盈利因子，作為常見(jiàn)的交易系統(tǒng)性能指標(biāo)，代表盈利交易的總盈利與虧損交易的總虧損之比。為了避免交易次數(shù)過(guò)少造成的過(guò)度擬合，用戶可以定義最小交易次數(shù)，可以是一個(gè)絕對(duì)值或是相對(duì)歷史數(shù)據(jù)長(zhǎng)度的一定百分比。此外，TSSB可以在多空兩邊分別使用兩組閥值，這樣就可以生成兩組信號(hào)，一組交易勝算處于正常水平，另一組屬于偏保守的高勝算交易。最后，在許多應(yīng)用中，TSSB會(huì)給出對(duì)應(yīng)不同的閥值所展現(xiàn)出的交易系統(tǒng)績(jī)效。

用戶基于描述未來(lái)價(jià)格走勢(shì)的最近觀察歷史和目標(biāo)變量指定指標(biāo)變量。TSSB提供原始?xì)v史市場(chǎng)數(shù)據(jù)（價(jià)和量），以及生成廣泛的指標(biāo)數(shù)據(jù)庫(kù)和目標(biāo)變量。給定一組指標(biāo)，一個(gè)或多個(gè)模型被訓(xùn)練來(lái)預(yù)測(cè)目標(biāo)變量。換句話說(shuō)，模型學(xué)習(xí)使用指標(biāo)中包含的預(yù)測(cè)信息，以預(yù)測(cè)目標(biāo)所體現(xiàn)的未來(lái)。

檢驗(yàn)交易系統(tǒng)

TSSB為預(yù)測(cè)模型交易或過(guò)濾系統(tǒng)提供了很多檢測(cè)功能。在這里，我們討論兩個(gè)通用的測(cè)試方法：交叉驗(yàn)證和外推檢驗(yàn)。這些在預(yù)測(cè)中都是主要的檢驗(yàn)標(biāo)準(zhǔn)。絕大多數(shù)測(cè)試方法的基本原則，是將完整的歷史數(shù)據(jù)分成幾個(gè)獨(dú)立的子集。其中一個(gè)子集被稱為訓(xùn)練集或開(kāi)發(fā)集，用于訓(xùn)練預(yù)測(cè)模型。另一個(gè)子集，稱為測(cè)試集或驗(yàn)證集，用于對(duì)訓(xùn)練模型進(jìn)行評(píng)估。

這里的關(guān)鍵是，用于訓(xùn)練模型的數(shù)據(jù)不能用于模型評(píng)估。在相當(dāng)一般的情況下，這種互斥分離保證了測(cè)試集下的性能是對(duì)未來(lái)性能表現(xiàn)的無(wú)偏估計(jì)。換句話說(shuō)，雖然觀察到的性能幾乎肯定不會(huì)等于未來(lái)的性能，但是它并不存在樂(lè)觀或悲觀的系統(tǒng)偏差。獲得一個(gè)對(duì)未來(lái)績(jī)效的無(wú)偏估計(jì)是交易系統(tǒng)開(kāi)發(fā)和測(cè)試的兩個(gè)目標(biāo)之一。另一個(gè)目標(biāo)是對(duì)于績(jī)效中運(yùn)氣成分進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)。

在早期的模型構(gòu)建和檢驗(yàn)中，由于計(jì)算機(jī)性能的限制，對(duì)于數(shù)據(jù)分解為訓(xùn)練集和測(cè)試集只是一次。這是一種非常低效率的數(shù)據(jù)使用方式。TSSB提供交叉驗(yàn)證和推進(jìn)分析的功能。這些技術(shù)將數(shù)據(jù)多次分成訓(xùn)練集和測(cè)試集，并組合這些性能統(tǒng)計(jì)數(shù)據(jù)提供交易系統(tǒng)真實(shí)水平的一個(gè)無(wú)偏估計(jì)。這樣有效利用了寶貴和有限的歷史數(shù)據(jù)。

推進(jìn)分析

推進(jìn)分析是一種簡(jiǎn)單、直觀且受到廣泛應(yīng)用的檢驗(yàn)方法。基本原理是，我們用一段相對(duì)較長(zhǎng)的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。然后，用緊接著訓(xùn)練數(shù)據(jù)的一段相對(duì)較短的數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試。然后我們以測(cè)試集數(shù)據(jù)的長(zhǎng)度向前推進(jìn)訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集，并不斷重復(fù)之前的步驟。直到數(shù)據(jù)全部被使用，推進(jìn)分析結(jié)束。我們把所有測(cè)試模塊的交易打包計(jì)算性能指標(biāo)。這里是一個(gè)簡(jiǎn)單的推進(jìn)分析的例子：

（1）使用1990年至2010年的數(shù)據(jù)訓(xùn)練模型，然后用2011年的數(shù)據(jù)測(cè)試模型；

（2）使用1991年至2011年的數(shù)據(jù)訓(xùn)練模型，然后用2012年的數(shù)據(jù)測(cè)試模型；

（3）使用1992年至2012年的數(shù)據(jù)訓(xùn)練模型，然后用2013年的數(shù)據(jù)測(cè)試模型；

把2011、2012和2013年所有測(cè)試集中的交易組合起來(lái)。這些交易算出來(lái)的性能可以作為模型性能的無(wú)偏估計(jì)。

推進(jìn)分析的主要優(yōu)勢(shì)在于，它模擬的是現(xiàn)實(shí)的交易場(chǎng)景。大多數(shù)自動(dòng)交易系統(tǒng)開(kāi)發(fā)人員會(huì)定期再訓(xùn)練模型或?qū)δＰ瓦M(jìn)行改進(jìn)。因此，推進(jìn)分析得出的結(jié)果模擬了實(shí)際交易過(guò)程中實(shí)際能拿到的結(jié)果。這是支持這種測(cè)試方法的一個(gè)令人信服的論點(diǎn)。

推進(jìn)分析的另一優(yōu)點(diǎn)是，它正確地反映了模型對(duì)于市場(chǎng)非平穩(wěn)特征的反應(yīng)。所有市場(chǎng)都會(huì)隨著時(shí)間的推移而發(fā)展并改變它們的行為，有時(shí)在許多不同的狀態(tài)下進(jìn)行轉(zhuǎn)變。不嚴(yán)格地說(shuō)，這種市場(chǎng)動(dòng)態(tài)的變化，也就是指標(biāo)與目標(biāo)變量之間的關(guān)系，稱為非平穩(wěn)。最好的預(yù)測(cè)模型對(duì)于這種變化有顯著的魯棒性，而推進(jìn)分析能幫助我們判斷模型的魯棒性。

TSSB可以使用各種長(zhǎng)度的測(cè)試數(shù)據(jù)集，使得評(píng)估模型應(yīng)對(duì)非平穩(wěn)的魯棒性變得非常容易。假設(shè)當(dāng)測(cè)試數(shù)據(jù)集很短的時(shí)候，模型取得了非常優(yōu)異的外推結(jié)果。換句話說(shuō)，模型并沒(méi)有被要求對(duì)未來(lái)很遠(yuǎn)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。現(xiàn)在假設(shè)隨著測(cè)試數(shù)據(jù)增多，外推績(jī)效隨之變差。這表明，模型并不能應(yīng)對(duì)市場(chǎng)的快速變化。這類模型是具有風(fēng)險(xiǎn)的，并且需要不斷的進(jìn)行再訓(xùn)練以跟上當(dāng)前市場(chǎng)狀況。另一方面，如果隨著測(cè)試數(shù)據(jù)增多，外推性能并沒(méi)有太大波動(dòng)，則表明模型在應(yīng)對(duì)非平穩(wěn)時(shí)是健壯的。這對(duì)于使用基于預(yù)測(cè)模型的方法開(kāi)發(fā)交易系統(tǒng)是一個(gè)有價(jià)值的屬性。見(jiàn)圖1，它描述了沿著時(shí)間軸訓(xùn)練集和測(cè)試集的位置。

圖的頂端部分描述的是推進(jìn)的測(cè)試數(shù)據(jù)集較短的情形。底端部分描述的是推進(jìn)的測(cè)試數(shù)據(jù)集較長(zhǎng)的情形。

相比其他測(cè)試方法，比如交叉驗(yàn)證，推進(jìn)分析只有一個(gè)缺點(diǎn)，那就是對(duì)于可用數(shù)據(jù)的使用效率較低。只有第一個(gè)訓(xùn)練數(shù)據(jù)集后面的數(shù)據(jù)才被用于測(cè)試。

交叉驗(yàn)證

并不是像推進(jìn)分析一樣在歷史數(shù)據(jù)集末端對(duì)測(cè)試數(shù)據(jù)進(jìn)行分割，交叉驗(yàn)證是對(duì)整個(gè)歷史數(shù)據(jù)集進(jìn)行均勻分配。例如，我們可以測(cè)試如下：

（1）使用2011年至2013年的數(shù)據(jù)訓(xùn)練模型，然后用2010年的數(shù)據(jù)測(cè)試模型；

（2）使用2010年至2013年，除開(kāi)2011年的數(shù)據(jù)訓(xùn)練模型，然后用2011年的數(shù)據(jù)測(cè)試模型；

（3）使用2010年至2013年，除開(kāi)2012年的數(shù)據(jù)訓(xùn)練模型，然后用2012年的數(shù)據(jù)測(cè)試模型；

（4）使用2010年至2013年，除開(kāi)2013年的數(shù)據(jù)訓(xùn)練模型，然后用2013年的數(shù)據(jù)測(cè)試模型；

如下圖2所示，在交叉驗(yàn)證中，每一步通常被稱為一折（fold）。

相對(duì)于推進(jìn)分析，交叉驗(yàn)證的明顯優(yōu)勢(shì)就是數(shù)據(jù)集的每一部分都可能成為測(cè)試集的一部分。然而，這里有幾個(gè)缺點(diǎn)是需要注意的。最嚴(yán)重的潛在問(wèn)題是，交叉驗(yàn)證對(duì)于非平穩(wěn)性很敏感。在推進(jìn)分析中，只有相對(duì)較近的數(shù)據(jù)被當(dāng)作測(cè)試對(duì)象。但是在交叉驗(yàn)證中，最開(kāi)始的數(shù)據(jù)集也會(huì)被用于性能測(cè)試。如果早期的市場(chǎng)行為與近期狀態(tài)顯著不同，也就是指標(biāo)與目標(biāo)的關(guān)系已經(jīng)發(fā)生變化，那么使用早期的數(shù)據(jù)進(jìn)行測(cè)試可能不是一件明智的事情。

另一個(gè)缺點(diǎn)是偏哲學(xué)層面的，但它是值得注意的。不同于推進(jìn)分析，交叉驗(yàn)證并不是模擬交易系統(tǒng)的實(shí)際場(chǎng)景。在交叉驗(yàn)證中，除了最后一折，我們使用的是未來(lái)的數(shù)據(jù)對(duì)測(cè)試模型進(jìn)行測(cè)試。另外，在交叉驗(yàn)證中，重疊問(wèn)題也比推進(jìn)分析中顯得更麻煩。

考慮重疊問(wèn)題

在討論交叉驗(yàn)證和推進(jìn)分析時(shí)，我們都是假設(shè)各個(gè)數(shù)據(jù)集之間是相互獨(dú)立的。不幸的是，事實(shí)往往并非如此。時(shí)間上相近的數(shù)據(jù)集，傾向于具有類似的指標(biāo)值或目標(biāo)。這通常以以下一個(gè)或兩個(gè)方式呈現(xiàn)：

（1）TSSB中許多可用的目標(biāo)并非只是向前推進(jìn)一期。例如，假設(shè)我們的目標(biāo)是未來(lái)10期的市場(chǎng)趨勢(shì)。這是為了做出交易決策而預(yù)測(cè)的數(shù)量。如果某一天這個(gè)值很高，表明在隨后的10天里市場(chǎng)趨勢(shì)強(qiáng)烈向上，那么十有八九這個(gè)值明天也會(huì)比較高，前一天也可能很高。向前或向后一天，對(duì)于10天的目標(biāo)變量窗口都有9天的重疊。這種時(shí)間序列數(shù)據(jù)的相關(guān)性被稱為序列相關(guān)性。

（2）在大多數(shù)交易系統(tǒng)，指標(biāo)通常會(huì)回溯相當(dāng)長(zhǎng)一段時(shí)間。例如，一個(gè)指標(biāo)可能是前50天的市場(chǎng)趨勢(shì)，或是衡量過(guò)去100天的波動(dòng)率。因此，指標(biāo)隨時(shí)間變化非常慢。

這些事實(shí)有幾個(gè)重要的意義。因?yàn)橹笜?biāo)變化緩慢，模型的預(yù)測(cè)也慢慢地改變。因此，市場(chǎng)狀態(tài)也變化緩慢。如果預(yù)測(cè)值高于閥值，它將持續(xù)多期高于閥值；相反，如果預(yù)測(cè)值低于閥值，它將持續(xù)多期低于閥值。這立即使得大多數(shù)常見(jiàn)的統(tǒng)計(jì)顯著性檢驗(yàn)變得無(wú)效，如t檢驗(yàn)、靴環(huán)檢驗(yàn)、蒙特卡洛排列檢驗(yàn)等。TSSB確實(shí)包含幾個(gè)統(tǒng)計(jì)顯著性檢驗(yàn)以減少序列相關(guān)性的影響。

指標(biāo)和目標(biāo)缺乏獨(dú)立性還有另一個(gè)含義，這一點(diǎn)比僅僅使得顯著性檢驗(yàn)失效更加嚴(yán)重。測(cè)試結(jié)果的合理性本身也會(huì)由于偏差而被破壞。幸運(yùn)地是，在TSSB中，這個(gè)問(wèn)題能夠通過(guò)重疊（OVERLAP）選項(xiàng)輕易解決?，F(xiàn)在，我們將簡(jiǎn)單地探索問(wèn)題的本質(zhì)。

問(wèn)題發(fā)生在訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的分界附近。最簡(jiǎn)單的是推進(jìn)分析的情形，只有一個(gè)（移動(dòng)的）邊界。假設(shè)目標(biāo)包括未來(lái)十天的市場(chǎng)運(yùn)動(dòng)。考慮訓(xùn)練數(shù)據(jù)集的最后一節(jié)，它的目標(biāo)包括測(cè)試模塊開(kāi)始的第一個(gè)10天。這種情況像所有的訓(xùn)練集一樣，在預(yù)測(cè)模型的發(fā)展過(guò)程中發(fā)揮作用。現(xiàn)在考慮測(cè)試集中的第一個(gè)10天，正如已經(jīng)指出的那樣，其指標(biāo)值與前期指標(biāo)值將非常類似。因此，模型的預(yù)測(cè)值也將于前值相似。因?yàn)槟繕?biāo)向前推進(jìn)了10天，我們僅僅向前推進(jìn)1天，留下9天重疊部分，這個(gè)測(cè)試集的目標(biāo)將與前一數(shù)據(jù)集目標(biāo)相似。由于前面的數(shù)據(jù)集與測(cè)試數(shù)據(jù)集特別類似，因此我們認(rèn)為它們的績(jī)效將類似于訓(xùn)練集的績(jī)效。這個(gè)結(jié)果存在樂(lè)觀偏差。我們的測(cè)試結(jié)果將比實(shí)際測(cè)試結(jié)果要優(yōu)。

作者簡(jiǎn)介：

大衛(wèi)．阿倫森（David Aronson）是機(jī)器學(xué)習(xí)、非線性交易系統(tǒng)開(kāi)發(fā)以及信號(hào)增強(qiáng)/過(guò)濾方面的先鋒，也是TSSB平臺(tái)的聯(lián)合開(kāi)發(fā)者。TSSB是一個(gè)自動(dòng)開(kāi)發(fā)具有統(tǒng)計(jì)顯著性的基于預(yù)測(cè)模型的交易系統(tǒng)的軟件平臺(tái)。自1979年以來(lái)，他就一直在這個(gè)領(lǐng)域工作，并在1992年獲得市場(chǎng)技術(shù)員協(xié)會(huì)的注冊(cè)市場(chǎng)分析師認(rèn)證。同時(shí)，他也是一名金融學(xué)副教授，常規(guī)性的為MBA和金融工程研究生講授關(guān)于技術(shù)分析、數(shù)據(jù)挖掘和預(yù)測(cè)分析的課程。他最近的新書(shū)《Statistically SoundMachine Learning for Algorithmic Trading of Financial Instruments》深入講述了關(guān)于如何使用TSSB開(kāi)發(fā)基于預(yù)測(cè)模型的交易系統(tǒng)。

責(zé)任編輯：張文慧

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn)，與本網(wǎng)站無(wú)關(guān)。本網(wǎng)站對(duì)文中陳述、觀點(diǎn)判斷保持中立，不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考，并請(qǐng)自行承擔(dān)全部責(zé)任。

返回七禾首頁(yè)

本網(wǎng)站凡是注明“來(lái)源：七禾網(wǎng)”的文章均為七禾網(wǎng) levitate-skate.com版權(quán)所有，相關(guān)網(wǎng)站或媒體若要轉(zhuǎn)載須經(jīng)七禾網(wǎng)同意0571-88212938，并注明出處。若本網(wǎng)站相關(guān)內(nèi)容涉及到其他媒體或公司的版權(quán)，請(qǐng)聯(lián)系0571-88212938，我們將及時(shí)調(diào)整或刪除。

【打印】【頂部】【關(guān) 閉】