現(xiàn)在的趨勢都是基于機器學(xué)習(xí)算法的投資策略 比如神經(jīng)網(wǎng)絡(luò)算法投資策略、隨機森林算法投資策略。
隨機森林算法投資策略:
把”機器學(xué)習(xí)“應(yīng)用到量化投資領(lǐng)域,不同于以往的量化策略。機器學(xué)習(xí)算法是一類從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進行預(yù)測的算法。其中,隨機森林算法是一種基于統(tǒng)計學(xué)習(xí)理論的組合分類器。它可以將用戶自選的各個因子,以機器訓(xùn)練的方式,自動分析其影響力度,從而給用戶投資建議。
適合做多分類問題;
1.當(dāng)存在分類不平衡的情況時,隨機森林能夠提供平衡數(shù)據(jù)集誤差的有效方法(通過屬性評估?);
2.訓(xùn)練和預(yù)測速度快;
3.對訓(xùn)練數(shù)據(jù)的容錯能力,是一種有效估計missing值的方法,當(dāng)數(shù)據(jù)集中有大比例的數(shù)據(jù)缺失時仍然可以保持精度不變;
4.能夠有效地處理大的數(shù)據(jù)集;
5.它能夠處理很高維度(feature很多)的數(shù)據(jù),并且不用做特征選擇
6.能夠在分類的過程中可以生成一個泛化誤差的內(nèi)部無偏估計(OOB error可以作為泛化誤差的一個估計);
7.能夠檢測到特征之間的相互影響以及重要性程度(通過feature_importances_方法);
8.不容易出現(xiàn)過度擬合;實現(xiàn)簡單容易并行化(通過n_jobs)。
9.模型的上述性能可以被擴展運用到未標(biāo)記的數(shù)據(jù)集中,用于引導(dǎo)無監(jiān)督聚類、數(shù)據(jù)透視和異常檢測