PIXART-α 模型结构详解：高效 Transformer-based T2I Diffusion 模型

PIXART-α 是一种基于 Transformer 的文本到图像（Text-to-Image, T2I）扩散模型，旨在以低训练成本实现高质量图像生成。其模型结构在 Diffusion Transformer（DiT）的基础上进行了创新优化，引入了交叉注意力机制和高效的 adaLN-single 模块，同时通过重参数化技术兼容预训练权重。本文将详细介绍 PIXART-α 的模型结构，并提供一个简化的实际训练代码示例，面向熟悉深度学习和 Diffusion 模型的读者。

下文中图片来自于原论文：https://arxiv.org/pdf/2310.00426

PIXART-α 模型结构概览

PIXART-α 的核心架构基于 Diffusion Transformer（DiT），通过以下关键改进使其适用于 T2I 任务并提升效率：

基础架构：Diffusion Transformer (DiT) DiT 是一种将 Transformer 架构引入扩散模型的框架，取代传统的 U-Net 骨干网络。PIXART-α 采用 DiT-XL/2 配置，包含 28 个 Transformer 块，每个块由自注意力（Self-Attention）、前馈网络（Feed-Forward Network, FFN）和自适应归一化（adaLN）组成。输入图像通过预训练的 VAE 编码为潜在表示（latent representation），并以 2×2 的补丁（patch）形式嵌入 Transformer。具体可以参考笔者的另一篇博客：Diffusion Transformers (DiTs) - 用Transformer革新Diffusion模型

交叉注意力层（Cross-Attention Layer）为注入文本条件，PIXART-α 在每个 DiT 块中新增了多头交叉注意力层，位于自注意力层和 FFN 之间。文本条件由 T5-XXL（4.3B 参数）编码器提取，生成 120 个 token 的嵌入（相比传统 77 token 更长，以适应高信息密度描述）。交叉注意力层的输出投影初始化为零，确保初始时不干扰后续层，同时兼容预训练权重。具体可以参考笔者的另一篇博客：什么是Cross Attention（交叉注意力）？详细解析与应用

AdaLN-Single 模块原始 DiT 的 adaLN 模块为每个 Transformer 块独立计算缩放和偏移参数（通过 MLP 从时间嵌入和类条件生成），参数量占比高达 27%。PIXART-α 提出 adaLN-single，仅在第一个块使用全局 MLP 从时间嵌入生成一组共享参数（包括 β1, β2, γ1, γ2, α1, α2），然后通过块特定的可训练嵌入（E^(i)）调整。这种设计将参数量从 833M 减少到 611M，GPU 内存从 29GB 降至 23GB，同时保持生成能力。具体可以参考笔者的另一篇博客：adaLN出处《FiLM: Visual Reasoning with a General Conditioning Layer》一种通用的视觉推理条件层方法（代码实现）

重参数化（Re-parameterization）为利用 ImageNet 预训练的类条件模型权重，PIXART-α 设计了重参数化技术。块特定的嵌入 E^(i) 初始化为在特定时间步（t=500）下与原始 DiT 输出一致的值，确保模型能直接加载预训练参数并快速适应 T2I 任务。

时间嵌入（Timestep Embedding）时间步（timestep）通过 256 维频率嵌入表示，随后通过两层 MLP（带 SiLU 激活）映射到 Transformer 的隐藏维度，用于控制扩散过程。

PIXART-α 的整体结构如图 4（技术报告中）所示：输入图像潜在表示和时间嵌入经过 Transformer 块处理，文本嵌入通过交叉注意力注入，最终输出去噪后的潜在表示，由 VAE 解码为图像。

模型结构特点

高效性：通过 adaLN-single 和重参数化，PIXART-α 显著减少参数量和内存占用，训练成本仅为 753 个 A100 GPU 天（相比 Stable Diffusion 的 6250 天）。灵活性：交叉注意力支持动态文本条件输入，生成分辨率可达 1024×1024，且支持多尺度训练。可扩展性：Transformer 架构天然具备参数扩展能力，未来可通过增加块数或隐藏维度提升性能。

实际训练代码

以下是一个简化的 PIXART-α 训练代码示例，使用 PyTorch 实现核心模型结构和单阶段训练流程。由于完整实现涉及 VAE、T5 编码器和大规模数据集，这里仅展示核心 Transformer 块和训练逻辑，假设已有预处理好的数据。

import torch

import torch.nn as nn

from torch.optim import AdamW

# adaLN-single 模块

class AdaLNSingle(nn.Module):

def __init__(self, embed_dim, num_blocks):

super().__init__()

self.global_mlp = nn.Sequential(

nn.Linear(embed_dim, embed_dim * 6), # 输出 β1, β2, γ1, γ2, α1, α2

nn.SiLU()

)

self.block_embeddings = nn.ParameterList([

nn.Parameter(torch.zeros(6 * embed_dim)) for _ in range(num_blocks)

])

def forward(self, t, block_idx):

base_params = self.global_mlp(t)

block_adjust = self.block_embeddings[block_idx]

params = base_params + block_adjust

return params.chunk(6, dim=-1)

# PIXART-α 的 Transformer 块

class PIXARTBlock(nn.Module):

def __init__(self, embed_dim, num_heads, num_blocks):

super().__init__()

self.self_attn = nn.MultiheadAttention(embed_dim, num_heads)

self.cross_attn = nn.MultiheadAttention(embed_dim, num_heads)

self.ffn = nn.Sequential(

nn.Linear(embed_dim, embed_dim * 4), nn.SiLU(),

nn.Linear(embed_dim * 4, embed_dim)

)

self.adaln = AdaLNSingle(embed_dim, num_blocks)

self.norm1 = nn.LayerNorm(embed_dim)

self.norm2 = nn.LayerNorm(embed_dim)

self.norm3 = nn.LayerNorm(embed_dim)

def forward(self, x, t, text_emb, block_idx):

# 自注意力

x = self.norm1(x)

x = x + self.self_attn(x, x, x)[0]

# 交叉注意力

x = self.norm2(x)

x = x + self.cross_attn(x, text_emb, text_emb)[0]

# adaLN-single 调整

beta1, beta2, gamma1, gamma2, alpha1, alpha2 = self.adaln(t, block_idx)

x = gamma1 * x + beta1 # 简化，实际需更多操作

# 前馈网络

x = self.norm3(x)

x = x + self.ffn(x)

return x

# PIXART-α 模型

class PIXARTAlpha(nn.Module):

def __init__(self, embed_dim=256, num_heads=8, num_blocks=28):

super().__init__()

self.time_embed = nn.Sequential(

nn.Linear(embed_dim, embed_dim), nn.SiLU(),

nn.Linear(embed_dim, embed_dim)

)

self.patch_embed = nn.Conv2d(3, embed_dim, kernel_size=2, stride=2) # 2x2 patch

self.blocks = nn.ModuleList([

PIXARTBlock(embed_dim, num_heads, num_blocks) for _ in range(num_blocks)

])

self.output = nn.Linear(embed_dim, 3) # 简化为直接输出

def forward(self, x, t, text_emb):

# 时间嵌入

t_emb = torch.sin(t.unsqueeze(-1) * torch.linspace(0, 1, 128, device=t.device))

t_emb = self.time_embed(t_emb)

# 图像嵌入

x = self.patch_embed(x).flatten(2).transpose(1, 2) # [B, N, D]

# Transformer 块

for idx, block in enumerate(self.blocks):

x = block(x, t_emb, text_emb, idx)

# 输出

x = self.output(x).transpose(1, 2).view(x.size(0), 3, 128, 128) # 假设输出 256x256

return x

# 训练函数

def train_pixart(model, dataloader, epochs=10, lr=2e-5):

optimizer = AdamW(model.parameters(), lr=lr, weight_decay=0.03)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

model.to(device)

for epoch in range(epochs):

for batch in dataloader:

images, text_emb = batch # 假设数据已预处理

images = images.to(device)

text_emb = text_emb.to(device)

t = torch.randint(0, 1000, (images.size(0),), device=device).float()

# 前向传播

pred = model(images, t, text_emb)

loss = nn.MSELoss()(pred, images) # 简化损失函数

# 反向传播

optimizer.zero_grad()

loss.backward()

optimizer.step()

print(f"Epoch {epoch+1}/{epochs}, Loss: {loss.item()}")

# 示例数据加载器（占位）

dataloader = torch.utils.data.DataLoader(

dataset=torch.utils.data.TensorDataset(

torch.randn(64, 3, 256, 256), # 模拟图像

torch.randn(64, 120, 256) # 模拟文本嵌入

batch_size=8

)

# 训练模型

model = PIXARTAlpha()

train_pixart(model, dataloader)

代码说明

模型结构：

AdaLNSingle：实现全局 MLP 和块特定嵌入的 adaLN-single。PIXARTBlock：包含自注意力、交叉注意力和 FFN 的 Transformer 块。PIXARTAlpha：完整模型，包含时间嵌入、图像补丁嵌入和多层 Transformer 块。训练逻辑：

使用 MSE 损失模拟扩散过程的去噪目标（实际应使用更复杂的扩散损失）。数据加载器为占位符，实际需提供预处理后的图像潜在表示和文本嵌入。简化之处：

未包含 VAE 编码/解码器、T5 文本编码器和多阶段训练逻辑。输出分辨率固定为 256x256，实际需支持多尺度。运行要求：

需要 PyTorch 和 GPU 支持。完整实现需补充预训练权重加载和数据管道。

总结

PIXART-α 的模型结构通过在 DiT 上引入交叉注意力、优化 adaLN 为 adaLN-single 并结合重参数化技术，实现了高效且高质量的 T2I 生成。其设计不仅降低了训练成本，还保持了与商用模型（如 Midjourney）媲美的生成能力。对于研究者而言，这一结构提供了 Transformer 在扩散模型中应用的优秀范例，值得进一步探索和扩展。

代码扩展

完善之前代码中提到的“简化之处”，包括以下内容：

添加 VAE 编码/解码器：PIXART-α 使用预训练的 VAE（来自 Latent Diffusion Model, LDM）将图像编码为潜在表示，并在生成时解码回图像空间。添加 T5 文本编码器：PIXART-α 使用 T5-XXL（4.3B 参数）提取 120 个 token 的文本嵌入。实现多阶段训练逻辑：PIXART-α 的训练分为像素依赖性学习、文本-图像对齐学习和高分辨率美学提升三个阶段。完善 adaLN-single 调整：在 adaLN-single 中，完整应用 β1, β2, γ1, γ2, α1, α2 参数对输入进行缩放和偏移。

以下是完整的代码实现，基于 PyTorch，并尽量贴近 PIXART-α 的技术报告描述。由于 T5-XXL 和完整数据集难以直接提供，我将使用 Hugging Face 的 transformers 库加载一个较小的 T5 模型作为示例，并假设数据已预处理好。

完整代码

import torch

import torch.nn as nn

from torch.optim import AdamW

from transformers import T5Tokenizer, T5EncoderModel

from torchvision.models import vgg16 # 假设使用 VGG 作为 VAE 基础

# VAE 模型（简化为基于 VGG 的编码器和解码器）

class VAE(nn.Module):

def __init__(self, latent_dim=256):

super().__init__()

# 编码器

vgg = vgg16(pretrained=True)

self.encoder = nn.Sequential(*list(vgg.features)[:-1], # 去掉最后池化层

nn.Conv2d(512, latent_dim, 3, padding=1),

nn.ReLU())

# 解码器

self.decoder = nn.Sequential(

nn.ConvTranspose2d(latent_dim, 512, 3, padding=1),

nn.ReLU(),

nn.ConvTranspose2d(512, 256, 4, stride=2, padding=1),

nn.ReLU(),

nn.ConvTranspose2d(256, 128, 4, stride=2, padding=1),

nn.ReLU(),

nn.ConvTranspose2d(128, 3, 4, stride=2, padding=1),

nn.Sigmoid() # 输出范围 [0, 1]

)

def encode(self, x):

return self.encoder(x)

def decode(self, z):

return self.decoder(z)

# adaLN-single 模块（完整实现）

class AdaLNSingle(nn.Module):

def __init__(self, embed_dim, num_blocks):

super().__init__()

self.global_mlp = nn.Sequential(

nn.Linear(embed_dim, embed_dim * 6), # 输出 β1, β2, γ1, γ2, α1, α2

nn.SiLU()

)

self.block_embeddings = nn.ParameterList([

nn.Parameter(torch.zeros(6 * embed_dim)) for _ in range(num_blocks)

])

def forward(self, t, block_idx):

base_params = self.global_mlp(t)

block_adjust = self.block_embeddings[block_idx]

params = base_params + block_adjust

return params.chunk(6, dim=-1)

# PIXART-α 的 Transformer 块（完整 adaLN 调整）

class PIXARTBlock(nn.Module):

def __init__(self, embed_dim, num_heads, num_blocks):

super().__init__()

self.self_attn = nn.MultiheadAttention(embed_dim, num_heads)

self.cross_attn = nn.MultiheadAttention(embed_dim, num_heads)

self.ffn = nn.Sequential(

nn.Linear(embed_dim, embed_dim * 4), nn.SiLU(),

nn.Linear(embed_dim * 4, embed_dim)

)

self.adaln = AdaLNSingle(embed_dim, num_blocks)

self.norm1 = nn.LayerNorm(embed_dim)

self.norm2 = nn.LayerNorm(embed_dim)

self.norm3 = nn.LayerNorm(embed_dim)

def forward(self, x, t, text_emb, block_idx):

# 自注意力

x = self.norm1(x)

attn_out = self.self_attn(x, x, x)[0]

# adaLN 调整自注意力输出

beta1, beta2, gamma1, gamma2, alpha1, alpha2 = self.adaln(t, block_idx)

x = gamma1 * x + beta1 + (gamma2 * attn_out + beta2)

# 交叉注意力

x = self.norm2(x)

cross_out = self.cross_attn(x, text_emb, text_emb)[0]

x = gamma1 * x + beta1 + (gamma2 * cross_out + beta2) # 复用参数

# 前馈网络

x = self.norm3(x)

ffn_out = self.ffn(x)

x = gamma1 * x + beta1 + (alpha1 * ffn_out + alpha2) # 使用 α1, α2 调整 FFN

return x

# PIXART-α 模型

class PIXARTAlpha(nn.Module):

def __init__(self, embed_dim=256, num_heads=8, num_blocks=28):

super().__init__()

self.vae = VAE(latent_dim=embed_dim)

self.time_embed = nn.Sequential(

nn.Linear(embed_dim, embed_dim), nn.SiLU(),

nn.Linear(embed_dim, embed_dim)

)

self.patch_embed = nn.Conv2d(embed_dim, embed_dim, kernel_size=2, stride=2)

self.blocks = nn.ModuleList([

PIXARTBlock(embed_dim, num_heads, num_blocks) for _ in range(num_blocks)

])

self.output = nn.Linear(embed_dim, embed_dim) # 输出潜在表示

def forward(self, x, t, text_emb):

# VAE 编码

latent = self.vae.encode(x)

latent = self.patch_embed(latent).flatten(2).transpose(1, 2) # [B, N, D]

# 时间嵌入

t_emb = torch.sin(t.unsqueeze(-1) * torch.linspace(0, 1, 128, device=t.device))

t_emb = self.time_embed(t_emb)

# Transformer 块

x = latent

for idx, block in enumerate(self.blocks):

x = block(x, t_emb, text_emb, idx)

# 输出潜在表示

x = self.output(x).transpose(1, 2).view(latent.size(0), embed_dim, 16, 16)

return x

def generate(self, t, text_emb):

# 从噪声开始生成

latent = torch.randn(1, 256, 16, 16, device=text_emb.device)

latent = self.patch_embed(latent).flatten(2).transpose(1, 2)

for idx, block in enumerate(self.blocks):

latent = block(latent, t, text_emb, idx)

latent = self.output(latent).transpose(1, 2).view(1, 256, 16, 16)

return self.vae.decode(latent)

# 数据加载器（占位）

def get_dataloader(stage):

if stage == "pixel_dependency":

return torch.utils.data.DataLoader(

torch.utils.data.TensorDataset(torch.randn(64, 3, 256, 256)), batch_size=8)

elif stage == "text_image_alignment":

return torch.utils.data.DataLoader(

torch.utils.data.TensorDataset(torch.randn(64, 3, 256, 256), torch.randn(64, 120, 256)), batch_size=8)

else: # high_aesthetics

return torch.utils.data.DataLoader(

torch.utils.data.TensorDataset(torch.randn(64, 3, 512, 512), torch.randn(64, 120, 256)), batch_size=4)

# 训练函数（多阶段）

def train_pixart(model, stage, epochs, lr=2e-5):

optimizer = AdamW(model.parameters(), lr=lr, weight_decay=0.03)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

model.to(device)

dataloader = get_dataloader(stage)

for epoch in range(epochs):

for batch in dataloader:

if stage == "pixel_dependency":

images, = batch

images = images.to(device)

t = torch.randint(0, 1000, (images.size(0),), device=device).float()

pred = model(images, t, None) # 无文本条件

else: # text_image_alignment 或 high_aesthetics

images, text_emb = batch

images = images.to(device)

text_emb = text_emb.to(device)

t = torch.randint(0, 1000, (images.size(0),), device=device).float()

pred = model(images, t, text_emb)

# 损失函数（简化版扩散损失）

noise = torch.randn_like(pred)

target = model.vae.encode(images) + noise

loss = nn.MSELoss()(pred, target)

optimizer.zero_grad()

loss.backward()

optimizer.step()

print(f"Stage: {stage}, Epoch {epoch+1}/{epochs}, Loss: {loss.item()}")

# T5 文本编码器

tokenizer = T5Tokenizer.from_pretrained("t5-small") # 使用小型 T5 作为示例

t5_model = T5EncoderModel.from_pretrained("t5-small")

def get_text_embedding(text):

inputs = tokenizer(text, return_tensors="pt", max_length=120, padding="max_length", truncation=True)

with torch.no_grad():

return t5_model(**inputs).last_hidden_state

# 主训练流程

model = PIXARTAlpha()

train_pixart(model, "pixel_dependency", epochs=5) # 阶段 1

train_pixart(model, "text_image_alignment", epochs=10) # 阶段 2

train_pixart(model, "high_aesthetics", epochs=5) # 阶段 3

# 示例生成

text = "A beautiful sunset over the ocean"

text_emb = get_text_embedding(text)

t = torch.tensor([500.0]).cuda()

generated_image = model.generate(t, text_emb)

代码说明

VAE 编码/解码器：

使用 VGG16 作为编码器基础，添加卷积层输出潜在表示。解码器使用转置卷积逐步上采样至图像空间。实际 PIXART-α 使用 LDM 的预训练 VAE，这里仅为示例。 T5 文本编码器：

使用 t5-small 替代 T5-XXL（4.3B 参数），生成 120 token 的嵌入。实际需加载完整 T5-XXL 模型并调整 token 长度。多阶段训练逻辑：

阶段 1：仅使用图像数据训练像素依赖性，无文本条件。阶段 2：引入文本-图像对齐，使用 256x256 数据。阶段 3：提升分辨率至 512x512，优化美学质量。数据加载器为占位符，实际需提供真实数据集。 adaLN-single 调整：

完整应用 β1, β2, γ1, γ2, α1, α2 参数：

自注意力输出：γ1 * x + β1 + (γ2 * attn_out + β2)交叉注意力输出：复用 γ1, β1, γ2, β2。FFN 输出：γ1 * x + β1 + (α1 * ffn_out + α2)。这种方式模拟了技术报告中的参数调整逻辑。

注意事项

依赖项：需安装 torch, transformers, 和 torchvision。数据：数据加载器为占位符，实际需替换为真实数据集（如 ImageNet、SAM-LLaVA 等）。性能：VAE 和 T5 使用简化版本，完整实现需更大模型和预训练权重。运行：代码可在 GPU 上运行，但需调整 batch_size 和分辨率以适配硬件。

后记

2025年3月26日18点48分于上海，在grok 3大模型辅助下完成。

PIXART-α 模型结构详解：高效 Transformer-based T2I Diffusion 模型

相关推荐

绝地求生pubg吃鸡启动游戏报错：解决方案速查。

王者荣耀怎么设置才能不卡顿

dnf虚空魔石在哪兑换虚空魔石在哪里换装备

合作伙伴

PIXART-α 模型结构详解：高效 Transformer-based T2I Diffusion 模型

相关推荐

绝地求生pubg吃鸡启动游戏报错：解决方案速查。

王者荣耀怎么设置才能不卡顿

dnf虚空魔石在哪兑换 虚空魔石在哪里换装备

合作伙伴

dnf虚空魔石在哪兑换虚空魔石在哪里换装备