[2504.18367] A Novel 4-D Dataset Paradigm for Studying Complete Ligand-Protein Dissociation Dynamics

arXiv - Machine Learning February 17, 2026 3 min read Article

Summary

This article introduces a novel 4-D dataset paradigm for studying ligand-protein dissociation dynamics, presenting the DD-13M database that captures extensive dissociation trajectories for drug-protein interactions.

Why It Matters

Understanding ligand-protein interactions is crucial for drug development. This new dataset allows researchers to explore dissociation dynamics more comprehensively, potentially accelerating the discovery of effective therapeutics and enhancing the predictive capabilities of AI models in drug design.

Key Takeaways

The DD-13M dataset includes over 26,000 dissociation processes for 565 ligand-protein complexes.
A deep generative model, UnbindingFlow, was developed to predict dissociation trajectories and rate constants.
This research establishes a new paradigm for training AI models in drug-protein interaction studies.

Physics > Computational Physics arXiv:2504.18367 (physics) [Submitted on 25 Apr 2025 (v1), last revised 14 Feb 2026 (this version, v2)] Title:A Novel 4-D Dataset Paradigm for Studying Complete Ligand-Protein Dissociation Dynamics Authors:Maodong Li, Jiying Zhang, Zhe Wang, Bin Feng, Wenqi Zeng, Dechin Chen, Zhijun Pan, Yu Li, Zijing Liu, Yi Isaac Yang View a PDF of the paper titled A Novel 4-D Dataset Paradigm for Studying Complete Ligand-Protein Dissociation Dynamics, by Maodong Li and 9 other authors View PDF Abstract:The kinetics and dynamics of drug-protein binding and dissociation are crucial to understanding drug absorption and metabolism. Despite advances in artificial intelligence (AI) tools for drug-protein interaction studies, existing training datasets remain limited to static structures or quasi-static conformations. This paper proposes a novel computational approach for rapidly generating drug-protein dissociation trajectories and presents the inaugural dynamically time-resolved 4-D (t, x, y, z) trajectory database DD-13M. This dataset captures over 26,000 complete dissociation processes for 565 ligand-protein complexes, providing nearly 13 million frames of all-atom simulation trajectories. A deep equivariant generative model, UnbindingFlow, was trained using the DD-13M dataset. This model has the capacity to produce dissociation trajectories for novel targets whilst accurately predicting their rate constants (koff). DD-13M introduces a new type of training d...

Read Original Article