Melodia: Training-Free Music Editing Guided by Attention Probing in Diffusion Models

AAAI 2026

arXiv Paper Datasets

Figure 3: (Left) Overview of Melodia. (Right) Detailed explanation of Attention-based Structure Retention (ASR).

Abstract

Text-to-music generation technology is progressing rapidly, creating new opportunities for musical composition and editing. However, existing music editing methods often fail to preserve the source music’s temporal structure, including melody and rhythm, when altering particular attributes like instrument, genre, and mood. To address this challenge, this paper conducts an in-depth probing analysis on attention maps within AudioLDM 2, a diffusion-based model commonly used as the backbone for existing music editing methods. We reveal a key finding: cross-attention maps encompass details regarding distinct musical characteristics, and interventions on these maps frequently result in ineffective modifications. In contrast, self-attention maps are essential for preserving the temporal structure of the source music during its conversion into the target music. Building upon this understanding, we present Melodia, a training-free technique that selectively manipulates self-attention maps in particular layers during the denoising process and leverages an attention repository to store source music information, achieving accurate modification of musical characteristics while preserving the original structure without requiring textual descriptions of the source music. Additionally, we propose two novel metrics to better evaluate music editing methods. Both objective and subjective experiments demonstrate that our approach achieves superior results in terms of textual adherence and structural integrity across various datasets. This research enhances comprehension of internal mechanisms within music generation models and provides improved control for music creation.

Comparisons with Baselines

`Accordion to Trombone`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Flute to Piano`(From Figure 6)

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Trumpet to Organ`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Guitar to Trumpet`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Man to Trumpet`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Clarinet to Guitar ＆ Jazz to Metal`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Violin to Piano`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Guitar to Violin`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Drum to Bass`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Blues to Metal`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Rock to Classical`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Folk to Reggae`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Jazz to Metal`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Classical to Country`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Jazz to Classical`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Clarinet to Guitar ＆ Jazz to Metal`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Rock to Jazz`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Jazz to Hiphop`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Rock to Classical`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Tense to Peaceful`(From Figure 6)

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Happy to Sad`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Mysterious to Epic Movie Soundtrack`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

`Emotional to Happy`

Source Audio

Melodia (Ours)

SDEdit

MusicGen

MusicMagus

DDPM-Friendly

DDIM Inversion

Attention Mechanism Ablation Study

Ablation studies demonstrating the distinct roles of Self-Attention (SA) and Cross-Attention (CA) and justifying the core mechanism of Melodia.

Ablation 1: `Drum to Violin`(From Figure 2)

Source Audio

The original audio with a distinct rhythmic structure.

SA Replacement (Layers 8-14)

Preserves the source's temporal structure (rhythm) while changing the instrument to violin.

SA Replacement (All Layers)

CA Replacement (Layers 8-14)

CA Replacement (All Layers)

Direct Generation

DDIM Inversion (No Replacement)

Ablation 2: `Blues to Classical`(From Figure 2)

Source Audio

The original audio in a 'Blues' style.

SA Replacement (Layers 8-14)

Effectively preserves the melodic contour of the blues track while shifting the style to classical.

SA Replacement (All Layers)

CA Replacement (Layers 8-14)

CA Replacement (All Layers)

Direct Generation

DDIM Inversion (No Replacement)

Ablation 3: `Clarinet to Trombone`

Source Audio

The original clarinet recording.

SA Replacement (Layers 8-14)

The optimal result: structure is preserved, and timbre is successfully changed to trombone.

SA Replacement (All Layers)

CA Replacement (Layers 8-14)

CA Replacement (All Layers)

Direct Generation

DDIM Inversion (No Replacement)