FinRL-DeepSeek: LLM-Infused Risk-Sensitive Reinforcement Learning for Trading Agents

ArXiv ID: 2502.07393 “View on arXiv”

Authors: Unknown

Abstract

This paper presents a novel risk-sensitive trading agent combining reinforcement learning and large language models (LLMs). We extend the Conditional Value-at-Risk Proximal Policy Optimization (CPPO) algorithm, by adding risk assessment and trading recommendation signals generated by a LLM from financial news. Our approach is backtested on the Nasdaq-100 index benchmark, using financial news data from the FNSPID dataset and the DeepSeek V3, Qwen 2.5 and Llama 3.3 language models. The code, data, and trading agents are available at: https://github.com/benstaf/FinRL_DeepSeek

Keywords: reinforcement learning, large language models (LLMs), Conditional Value-at-Risk, PPO algorithm, trading agent, equities

Complexity vs Empirical Score

Math Complexity: 6.5/10
Empirical Rigor: 7.0/10
Quadrant: Holy Grail
Why: The paper involves advanced reinforcement learning algorithms with formal risk constraints and mathematical formulations, while also providing extensive backtesting results, specific metrics, and an open-source repository.

  flowchart TD
    A["Research Goal: Create Risk-Sensitive Trading Agent"] --> B["Data Input:<br>Financial News (FNSPID) & Market Data (Nasdaq-100)"]
    B --> C["LLM Integration:<br>DeepSeek V3, Qwen 2.5, Llama 3.3<br>Generate Risk/Recommendation Signals"]
    C --> D["Core Methodology:<br>Risk-Sensitive CPPO (RL)<br>Conditional Value-at-Risk Optimization"]
    D --> E["Computation:<br>Backtesting & Agent Training"]
    E --> F["Key Findings:<br>Validated Risk-Sensitive Agents<br>Code & Models Available"]

FinRL-DeepSeek: LLM-Infused Risk-Sensitive Reinforcement Learning for Trading Agents#

Abstract#

Complexity vs Empirical Score#

FinRL-DeepSeek: LLM-Infused Risk-Sensitive Reinforcement Learning for Trading Agents

Abstract

Complexity vs Empirical Score