金融论文哪里有?本文在中国市场的豆粕期货上对提出的框架进行了实证检验。基于国泰君安期货、银河期货、华泰期货以及南华期货发布的每日农产品期货报道中豆粕的部分,共搜集了921条新闻内容。
第1章绪论
1.4本文的主要特点
首先,基于豆粕期货(主连)交易数据计算已实现波动率。其次,然后,对于难以量化的影响因素寻找较优的代理变量,以市场情绪为例,使用大连理工大学中文情感词汇本体库构建媒体情绪指标,以及词频分析构建政策强度指标等。能够更准确地得到影响因素的代理变量,较少其他中介变量的影响。最后,使用LSTM模型预测波动率,并将机器学习模型等单一模型作为对照模型,验证本文的研究意义。具体分为如下几个方面:在进行研究的过程中,总结本文创新点主要有如下:
(1)在传统对于影响因素分析方面,主要是在文献研究法层面,或者使用主成分分析法,但这种分析方法受限于分析者的素养与积累,且具有较强的主观性及偶然性,本文从主题模型出发,使用Bertopic模型对机构投资者提供的豆粕期货日度报道的文本信息进行主题选取。相较于传统的文献综述法得到研究对象的影响因素,更具有客观性与普适性。
(2)对于市场情绪构建,已经有部分学者开始引入机器学习和深度学习的方法,如词袋分析和Bert情绪分析,但模型多数处理大数据且存在模型误差,本文选取四年的情绪文本分析,相对来说数据量并不是太大,可以通过爬虫技术搜集相关文本,利用人工标注构建市场情绪指标,减少模型分析带来的误差,本文情绪标注选取的标准是借鉴大连理工情绪分析词典。此外,使用7天指数衰减进行影响处理。同时,将周末指标与本周五指标取均值,以将周末媒体情绪和投资者关注对波动率的影响引入到下周一的数据中。
第3章期货波动率预测问题描述与分析
3.1期货波动率预测问题的描述
据上文1.1背景的研究中提到目前存在三大问题未解决。首先,影响农产品期货价格的因素非常复杂,仅凭以往的研究或研究者观点很难提供一个全面的因素清单,需要以一种更加客观有效的方法来确定影响因素。其次,有些因素变化很难量化,如政策和天气等,需要进一步研究,构建相关指标进而合理量化其影响效果,从而合理预测期货品种的波动。最后,预测波动率要克服传统计量经济模型和机器学习算法的缺点,同时发挥传统计量经济模型和机器学习算法的优势,获得更优的波动预测性能。
本文的研究内容丰富,涉及到自然语言处理中的主题模型Bertopic对文本进行降维、文本数据的搜集、非结构化数据处理,通过利用大型语言模型来构建情绪指标,并采用计量模型、机器学习模型以及深度学习模型等多种方法和技术来预测已实现波动率。
第5章方案合理性检验以及实施途径
5.1方案的合理性论证
本文提出的基于文本的预测框架,使用主题模型充分利用机构投资者发布的期货信息,可以较为全面地识别并合理量化影响农产品期货的因素。根据收集的豆粕文本数据,挖掘出市场主体对农产品期货的关注主题有哪些,并对挖掘的主题进行分析,寻找合适的替代变量用于预测期货波动率,从而整体提高模型的预测性能。另外,主题分析得到一些难以量化的影响因素,如天气变化、政策变化等,本文使用情绪分析的方法构建情绪指标,鉴于新闻具有时效性,借鉴相关文献的处理方法,单条新闻的影响分数指数递减7天,本文构建带有指数衰减的情绪分值作为情绪指标的影响因素。从而,将得到所有可量化的因素变量,并代入到LSTM模型中进行预测。
本文使用SHAP(Shapley Additive exP lanations)绘制预测豆粕期货波动率的特征重要性图。SHAP是一种解释机器学习模型预测结果的方法。它基于博弈论中的Shapley值理论,通过考虑每个特征对于模型预测的贡献,来解释每个样本的预测结果。SHAP方法将每个特征视为一个“玩家”,模拟多个“玩家”合作完成一个“项目”的情景,通过考虑每个“玩家”的贡献来公平地分配合作收益。这种方法可以帮助理解模型对于不同特征的依赖程度,从而提供对模型预测结果的可解释性和可信度的评估。SHAP值衡量了模型预测输出与基准值之间的差异,以及特征值与基准值之间的差异。SHAP值越大,表示该特征对于增加模型输出的贡献越大,反之亦然。
5.1.1特征重要性检验
5.2方案的风险提示
本文提出的基于文本的农产品期货波动率预测框架是一种创新性的方法,但在实施时需要谨慎考虑一系列潜在风险因素。以下是对这些风险的详细提示。
(1)数据质量风险。本框架依赖于机构投资者发布的期货信息,如国泰君安期货、银河期货等的早盘观察和建议。可能存在数据质量不一致、错误或缺失的情况。投资者在使用框架时应注意确保所使用的文本数据的准确性和完整性。
(2)模型复杂性风险。本文主要使用了BERTopic主题模型用于识别研究对象的影响因素,使用LSTM混合模型预测豆粕期货的波动率。另外,本文选取了线性回归模型和机器学习模型,如SVR、RF等多个模型作为对照组进行比较。模型的复杂性可能导致过拟合,特别是在样本量较小的情况下。投资者在选择模型时需根据实际情况进行适当的调整和验证。
(3)市场不确定性风险。农产品期货市场受多种因素的影响,包括天气、国际贸易政策、宏观经济状况等。这些因素的突发变化可能导致模型的预测性能下降。投资者应认识到市场的不确定性,并在决策中考虑这些潜在的风险。
(4)文本挖掘不确定性风险。采用BERTopic主题模型进行文本挖掘,模型的稳定性和结果的解释性可能受到嵌入表示和TF-IDF权重的选择影响。投资者应注意对文本挖掘结果的解释,并谨慎处理模型的不确定性。
(5)评价指标局限性风险:评价模型性能的指标可能无法全面反映模型的实际效果。投资者应谨慎选择评价指标,并结合实际应用场景进行全面考量。综上所述,虽然本文提出了一种有望提高农产品期货波动率预测准确性的框架,但投资者在使用时务必注意并充分考虑上述潜在风险,并根据实际情况进行灵活调整和管理。谨慎的风险管理策略将有助于更好地应对不确定性,提高投资决策的稳健性。
第6章结论
6.2政策建议
通过本文的研究可以看到通过分析文本获取研究对象的影响因素的可行性,神经网络模型可以在预测中起到很好的效果,这打破了原来通过文献总结等方法选择研究对象影响因素的限制,拓阔了研究对象的影响因素选择思路,同时提高了模型预测的精准度。本研究提出了一种普适性的研究方案,不仅适用于农产品期货研究,可以根据不同研究对象进行文本的搜集与分析,使用主题模型建模得到较为全面的影响因素清单。
基于本文的研究,我们提出以下政策建议:
(1)提倡并支持研究者使用基于文本的分析方法来获取研究对象的影响因素。传统的文献总结等方法有其局限性,而通过文本分析可以获得更全面、更客观的影响因素清单,从而提高模型预测的精准度。
(2)鼓励研究者考虑新闻的时效性,考虑情绪分析中情绪分值的时间影响。我们生活在一个连续的世界,今天的信息不可能只影响今天,还会对明天产生影响。因此,在根据新闻内容构建情绪指标时应考虑到时间效应。
(3)推广本研究提出的普适性研究方案。虽然本文的研究对象是农产品期货,但该研究方案同样适用于其他研究对象。根据不同的研究对象进行文本的搜集与分析,使用主题模型建模得到较为全面的影响因素清单,可以灵活搭配,为研究者提供了一个通用的研究方案。
参考文献(略)