（9-5）基于深度强化学习的量化交易策略（OpenAI Baselines +FinRL+DRL+PyPortfolioOpt）：深度强化学习算法模型-Toy模板网

这篇具有很好参考价值的文章主要介绍了（9-5）基于深度强化学习的量化交易策略（OpenAI Baselines +FinRL+DRL+PyPortfolioOpt）：深度强化学习算法模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

9.8 深度强化学习算法模型

本项目的深度强化学习算法的是基于Stable Baselines实现的，Stable Baselines是OpenAI Baselines的一个分支，经过了重大的结构重构和代码清理工作。另外，在库FinRL中包含了经过调优的标准深度强化学习算法，如DQN、DDPG、多智能体DDPG、PPO、SAC、A2C和TD3，并且允许用户通过调整这些深度强化学习算法来设计他们自己的算法。首先通过类DRLAgent初始化了一个深度强化学习（DRL）代理，使用的训练环境是 env_train。

agent = DRLAgent(env=env_train)

1. 模型1：基于A2C算法

A2C（Advantage Actor-Critic）是深度强化学习中的一种算法，是一种基于策略梯度的算法，结合了 Actor-Critic 方法的优点。在本项目中，使用 A2C 算法作为第一个模型。

（1）下面代码首先创建了一个 DRLAgent 的实例 agent，然后使用该实例获取了 A2C 模型，通过 A2C_PARAMS 指定模型参数。其中，n_steps 表示每个环境步骤的时间步数，ent_coef 是熵正则化的系数，learning_rate 是学习率。最终，通过 agent.get_model 获取到 A2C 模型的实例 model_a2c。

agent = DRLAgent(env = env_train)

A2C_PARAMS = {"n_steps": 5, "ent_coef": 0.005, "learning_rate": 0.0002}
model_a2c = agent.get_model(model_name="a2c",model_kwargs = A2C_PARAMS)

执行后会输出：

{'n_steps': 5, 'ent_coef': 0.005, 'learning_rate': 0.0002}

Using cuda device

（2）下面代码使用上面创建的A2C 模型 model_a2c 进行训练。通过调用 agent.train_model 方法，指定了模型、TensorBoard 日志名称 tb_log_name 以及总的训练步数 total_timesteps，这里设置为 50000 步。训练完成后，返回已训练的 A2C 模型 trained_a2c。

trained_a2c = agent.train_model(model=model_a2c,

                                tb_log_name='a2c',

                                total_timesteps=50000)

执行后会输出：

-------------------------------------
| time/                 |           |
|    fps                | 193       |
|    iterations         | 100       |
|    time_elapsed       | 2         |
|    total_timesteps    | 500       |
| train/                |           |
|    entropy_loss       | -39.6     |
|    explained_variance | -1.19e-07 |
|    learning_rate      | 0.0002    |
|    n_updates          | 99        |
|    policy_loss        | 1.67e+08  |
|    reward             | 1517850.5 |
|    std                | 0.996     |
|    value_loss         | 2.43e+13  |
-------------------------------------
-------------------------------------
| time/                 |           |
|    fps                | 237       |
|    iterations         | 200       |
|    time_elapsed       | 4         |
|    total_timesteps    | 1000      |
| train/                |           |
####省略中间的训练过程
=================================
begin_total_asset:1000000
end_total_asset:4309026.642000869
Sharpe:  0.7900726163163222
=================================
-------------------------------------
| time/                 |           |
|    fps                | 277       |
|    iterations         | 9900      |
|    time_elapsed       | 178       |
|    total_timesteps    | 49500     |
| train/                |           |
|    entropy_loss       | -38.6     |
|    explained_variance | 1.19e-07  |
|    learning_rate      | 0.0002    |
|    n_updates          | 9899      |
|    policy_loss        | 1.53e+08  |
|    reward             | 1406130.6 |
|    std                | 0.962     |
|    value_loss         | 2.07e+13  |
-------------------------------------
-------------------------------------
| time/                 |           |
|    fps                | 278       |
|    iterations         | 10000     |
|    time_elapsed       | 179       |
|    total_timesteps    | 50000     |
| train/                |           |
|    entropy_loss       | -38.6     |
|    explained_variance | 0         |
|    learning_rate      | 0.0002    |
|    n_updates          | 9999      |
|    policy_loss        | 1.93e+08  |
|    reward             | 1812970.5 |
|    std                | 0.962     |
|    value_loss         | 3.47e+13  |
-------------------------------------

（3）将已经训练好的 A2C 模型保存到指定的文件路径 /content/trained_models/trained_a2c.zip，保存模型的目的是为了在以后的应用中重新加载和使用。

trained_a2c.save('/content/trained_models/trained_a2c.zip')

2. 模型2: 基于PPO算法

PPO（Proximal Policy Optimization）是一种基于策略的深度强化学习算法，用于解决离散和连续动作空间的强化学习问题。它通过在训练过程中保持较小的更新步长（proximoimal更新）来稳定策略的训练。PPO旨在优化目标函数，同时限制新策略与旧策略之间的差异，以确保训练的稳定性。

（1）使用FinRL库中的DRLAgent类初始化一个强化学习代理（agent），然后创建了一个使用PPO算法的模型，并传递了一些PPO算法的参数。这个模型将用于在环境中训练智能体。

agent = DRLAgent(env = env_train)
PPO_PARAMS = {
    "n_steps": 2048,
    "ent_coef": 0.005,
    "learning_rate": 0.0001,
    "batch_size": 128,
}
model_ppo = agent.get_model("ppo",model_kwargs = PPO_PARAMS)

在上述代码中，各个参数的具体说明如下所示。

n_steps：PPO算法中的步数，表示每次更新时使用的样本数量。
ent_coef：用于控制策略熵的正则化参数，有助于提高探索性。
learning_rate：模型训练的学习率，控制模型参数更新的步长。
batch_size：批次大小，表示每次训练时用于更新模型的样本数量。

执行后会输出：

{'n_steps': 2048, 'ent_coef': 0.005, 'learning_rate': 0.0001, 'batch_size': 128}

Using cuda device

（2）使用上面创建的PPO模型在环境中进行了8万步的训练，这将对模型进行学习，以在股票交易环境中执行交易决策。其中参数tb_log_name用于指定训练日志的名称，方便后续的监视和分析。

trained_ppo = agent.train_model(model=model_ppo,

                             tb_log_name='ppo',

                             total_timesteps=80000)

执行后会输出：

----------------------------------
| time/              |           |
|    fps             | 391       |
|    iterations      | 1         |
|    time_elapsed    | 5         |
|    total_timesteps | 2048      |
| train/             |           |
|    reward          | 3302678.2 |
----------------------------------
=================================
begin_total_asset:1000000
end_total_asset:4343413.17307137
Sharpe:  0.7899039704340352
=================================
######省略后面的输出
=================================
begin_total_asset:1000000
end_total_asset:4565767.653148839
Sharpe:  0.8168274613470233
=================================
-------------------------------------------
| time/                   |               |
|    fps                  | 333           |
|    iterations           | 40            |
|    time_elapsed         | 245           |
|    total_timesteps      | 81920         |
| train/                  |               |
|    approx_kl            | 1.0884833e-08 |
|    clip_fraction        | 0             |
|    clip_range           | 0.2           |
|    entropy_loss         | -39.7         |
|    explained_variance   | 1.19e-07      |
|    learning_rate        | 0.0001        |
|    loss                 | 9.91e+14      |
|    n_updates            | 390           |
|    policy_gradient_loss | -7.86e-07     |
|    reward               | 1881302.4     |
|    std                  | 1             |
|    value_loss           | 1.79e+15      |
-------------------------------------------

（3）下面代码用于将已经训练好的PPO模型保存为ZIP文件，以便在以后需要模型时加载和调用。

trained_ppo.save('/content/trained_models/trained_ppo.zip')

3. 模型3: 基于DDPG算法

DDPG（Deep Deterministic Policy Gradient）是一种用于连续动作空间的深度强化学习算法。在这个上下文中，它用于训练股票交易的智能体。DDPG是一种基于策略梯度的算法，它同时学习动作策略和值函数。这使得DDPG在处理具有高维、连续动作空间的问题时非常有效。

（1）在库FinRL中，通过调用agent.get_model("ddpg", model_kwargs=DDPG_PARAMS)创建DDPG模型。

agent = DRLAgent(env = env_train)
DDPG_PARAMS = {"batch_size": 128, "buffer_size": 50000, "learning_rate": 0.001}
model_ddpg = agent.get_model("ddpg",model_kwargs = DDPG_PARAMS)

执行后会输出：

{'batch_size': 128, 'buffer_size': 50000, 'learning_rate': 0.001}
Using cuda device

（2）在下面的代码中，使用agent.train_model方法对DDPG模型进行了训练。具体来说，model=model_ddpg表示使用之前创建的DDPG模型，tb_log_name='ddpg'表示TensorBoard日志的名称，total_timesteps=50000表示总的训练步数。

trained_ddpg = agent.train_model(model=model_ddpg,

                             tb_log_name='ddpg',

                             total_timesteps=50000)

上述代码将执行DDPG算法的训练过程，并将训练好的模型保存在trained_ddpg中。执行后会输出：

=================================
begin_total_asset:1000000
end_total_asset:4369306.145455855
Sharpe:  0.8034072979350758
=================================
=================================
begin_total_asset:1000000
end_total_asset:4365995.854896107
Sharpe:  0.8200827579868865
=================================
#####省略部分输出结果
----------------------------------
| time/              |           |
|    episodes        | 16        |
|    fps             | 124       |
|    time_elapsed    | 373       |
|    total_timesteps | 46288     |
| train/             |           |
|    actor_loss      | -2.24e+08 |
|    critic_loss     | 1.41e+13  |
|    learning_rate   | 0.001     |
|    n_updates       | 43395     |
|    reward          | 4365996.0 |
----------------------------------
=================================
begin_total_asset:1000000
end_total_asset:4365995.854896107
Sharpe:  0.8200827579868865
=================================
=================================
begin_total_asset:1000000
end_total_asset:4365995.854896107
Sharpe:  0.8200827579868865
=================================

（3）将训练好的DDPG模型保存到指定的目录'/content/trained_models/trained_ddpg.zip'中，以便在后续可以加载和使用该模型。

trained_ddpg.save('/content/trained_models/trained_ddpg.zip')

4. 模型4: 基于SAC算法

SAC（Soft Actor-Critic）是一种强化学习算法，专门用于解决连续动作空间中的问题。SAC采用了深度学习神经网络来近似值函数和策略，并通过最大化期望累积奖励来进行训练。

（1）在下面的的代码中，通过类DRLAgent创建了一个 Soft Actor-Critic（SAC）模型。SAC_PARAMS 包含了 SAC 模型的关键参数设置，这个模型使用了 FinRL 库中的 get_model 方法，并指定模型类型为 "sac"，同时传递了 SAC 模型的参数。该模型在环境 env_train 中进行训练，以学习股票交易策略。

agent = DRLAgent(env = env_train)
SAC_PARAMS = {
    "batch_size": 128,
    "buffer_size": 100000,
    "learning_rate": 0.0003,
    "learning_starts": 100,
    "ent_coef": "auto_0.1",
}

model_sac = agent.get_model("sac",model_kwargs = SAC_PARAMS)

执行后会输出：

{'batch_size': 128, 'buffer_size': 100000, 'learning_rate': 0.0003, 'learning_starts': 100, 'ent_coef': 'auto_0.1'}
Using cuda device

（2）通过 agent 对象对 SAC 模型进行训练，使用环境 env_train训练生成数据。trained_sac 包含了训练完毕的 SAC 模型，该模型已经学习了在给定环境下执行股票交易策略的参数。这个模型的训练过程产生的日志也被记录在TensorBoard 中，日志命名为 'sac'。

trained_sac = agent.train_model(model=model_sac,
                             tb_log_name='sac',
                             total_timesteps=50000)

执行后会输出：

=================================
begin_total_asset:1000000
end_total_asset:4774375.224598323
Sharpe:  0.8157447898211176
=================================
=================================
begin_total_asset:1000000
end_total_asset:4851457.312329918
Sharpe:  0.817397961885012
=================================
=================================
begin_total_asset:1000000
end_total_asset:4851717.33279626
Sharpe:  0.8174262460980435
=================================
=================================
begin_total_asset:1000000
end_total_asset:4851205.14751689
Sharpe:  0.8173829155723342
=================================
----------------------------------
| time/              |           |
|    episodes        | 4         |
|    fps             | 77        |
|    time_elapsed    | 150       |
####省略部分输出结果
----------------------------------
| time/              |           |
|    episodes        | 16        |
|    fps             | 76        |
|    time_elapsed    | 606       |
|    total_timesteps | 46288     |
| train/             |           |
|    actor_loss      | -2.65e+08 |
|    critic_loss     | 1.16e+13  |
|    ent_coef        | 977       |
|    ent_coef_loss   | -2.8      |
|    learning_rate   | 0.0003    |
|    n_updates       | 46187     |
|    reward          | 4837676.5 |
----------------------------------
=================================
begin_total_asset:1000000
end_total_asset:4804962.823019405
Sharpe:  0.8165128039174648
=================================

（3）将经过训练的 SAC 模型保存为ZIP 文件'/content/trained_models/trained_sac.zip'，该文件存储了训练好的模型参数以及相关信息。

trained_sac.save('/content/trained_models/trained_sac.zip')

5. 模型5: 基于TD3算法

TD3（Twin Delayed DDPG）是一种深度强化学习算法，它结合了 DDPG（Deep Deterministic Policy Gradients）的思想，通过引入双 Q 网络和延迟更新策略来提高训练的稳定性和性能。TD3的全称是 Twin Delayed DDPG，其中“Twin”表示引入了两个 Q 网络，而“Delayed”表示采用了延迟更新的机制。

（1）通过类DRLAgent创建了一个 TD3 模型，其中设定了模型的批量大小为 100，缓冲区大小为 1,000,000，学习率为 0.001。这些参数配置将用于模型的训练，以适应环境中的深度强化学习任务。

agent = DRLAgent(env = env_train)
TD3_PARAMS = {"batch_size": 100, 
              "buffer_size": 1000000, 
              "learning_rate": 0.001}

model_td3 = agent.get_model("td3",model_kwargs = TD3_PARAMS)

执行后会输出：

{'batch_size': 100, 'buffer_size': 1000000, 'learning_rate': 0.001}

Using cuda device

（2）通过 train_model 方法对之前创建的 TD3 模型进行训练，使用了总共 30,000 个时间步进行训练，并将训练过程的日志记录到 TensorBoard 中，日志命名为 'td3'。

trained_td3 = agent.train_model(model=model_td3,
                             tb_log_name='td3',
                             total_timesteps=30000)

执行后会输出：

=================================
begin_total_asset:1000000
end_total_asset:4609152.895393911
Sharpe:  0.8172592399889653
=================================
=================================
begin_total_asset:1000000
end_total_asset:4798090.361426867
Sharpe:  0.835226336478133
=================================
=================================
begin_total_asset:1000000
end_total_asset:4798090.361426867
Sharpe:  0.835226336478133
=================================
=================================
begin_total_asset:1000000
end_total_asset:4798090.361426867
Sharpe:  0.835226336478133
=================================
----------------------------------
| time/              |           |
|    episodes        | 4         |
#####省略部分输出
|    critic_loss     | 1.47e+13  |
|    learning_rate   | 0.001     |
|    n_updates       | 20251     |
|    reward          | 4798090.5 |
----------------------------------
=================================
begin_total_asset:1000000
end_total_asset:4798090.361426867
Sharpe:  0.835226336478133
=================================
=================================
begin_total_asset:1000000
end_total_asset:4798090.361426867
Sharpe:  0.835226336478133
=================================
=================================
begin_total_asset:1000000
end_total_asset:4798090.361426867
Sharpe:  0.835226336478133
=================================

（3）将已训练的 TD3 模型保存为一个 ZIP 文件，以备将来使用或部署。保存的文件路径为 '/content/trained_models/trained_td3.zip'。文章来源地址https://www.toymoban.com/news/detail-822473.html

trained_td3.save('/content/trained_models/trained_td3.zip')

未完待续

到了这里，关于（9-5）基于深度强化学习的量化交易策略（OpenAI Baselines +FinRL+DRL+PyPortfolioOpt）：深度强化学习算法模型的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！