一.数据采集

在此量化框架内，全部使用本地化计算。优势：

本地化计算，首先要做的，就是将所需的基础数据采集到本地数据库里，本篇的示例源码采用的数据库是MySQL5.5，数据源是tushare pro接口。

我们现在要取一批特定股票的日线行情，部分代码如下：

数据采集的程序主要设置三个参数：获取行情的初始日期，终止日期，以及股票代码池。

当我们获取数据后，就要往本地数据库进行写入（存储）操作了，本篇代码用的是SQL语言，需提前在数据库内建好相应的表，表配置和表结构如下：

库名：stock 表名：stock_all

其中 state_dt 和 stock_code 是主键和索引。state_dt 的格式是 ‘yyyy-mm-dd’（例：’2018-06-11’）。这样的日期格式便于查询，且在MySQL内部能够进行大小比较。

二.数据预处理

以机器学习的视角来看，数据预处理主要包括数据清洗，排序，缺失值或异常值处理，统计量分析，相关性分析，主成分分析（PCA），归一化等。此处数据预处理比较简单，只是将存在本地数据库的日线行情数据整合成一份训练集数据，以用于后续的机器学习建模和训练。

此处将以最简单的数据进行分析，我们输入端的数据是个股每日基础行情，输出端数据是股价相较前一交易日的涨跌状态。简单点说就是，我们向模型输入今天的基础行情，让模型预测明天股价是涨还是跌。

在代码实现方式上，我们采用面向对象的思想，将整个数据预处理过程和结果，封装成一个类，每次创建一个类实例，就得到了特定条件下的一份训练集。示例代码如下：

最终这个类实例化后是要整合出三个数据：

1. self.train ：训练集中的输入端数据，本例中是每日基础行情。
2. self.target ：训练集中的输出数据，本例中相较于前一天股价的涨跌，涨为1，不涨为0。并且在排序上，每条 t 交易日的self.train里的数据对应的是 t+1 天股价的涨跌状态。
3. self.test_case ：在 t 末交易日的基础行情数据，作为输入端，用于模型训练完成后，对第二天的涨跌进行预测。

机器学习框架是scikit-learn。是个非常强大的算法库，如果熟悉算法原理可以查阅官方API文档，可修改模型参数，进一步调优模型；亦可尝试其他算法比如决策树，逻辑回归，朴素贝叶斯等。

虽然顺利建模并作出预测，我们仍面对两个主要问题：1.模型预测能力如何者说该如何评估一个模型的质量.该如何结合模型进行仓位管理险如何何量化/p>

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！