<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>技术 on Lurkerlin&#39;s Blog</title>
    <link>https://lurkerlin.vercel.app/tags/%E6%8A%80%E6%9C%AF/</link>
    <description>Recent content in 技术 on Lurkerlin&#39;s Blog</description>
    <generator>Hugo -- 0.161.1</generator>
    <language>zh</language>
    <lastBuildDate>Sun, 28 Dec 2025 18:47:49 +0800</lastBuildDate>
    <atom:link href="https://lurkerlin.vercel.app/tags/%E6%8A%80%E6%9C%AF/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>故事图像生成综述</title>
      <link>https://lurkerlin.vercel.app/posts/%E6%8A%80%E6%9C%AF/%E6%95%85%E4%BA%8B%E5%9B%BE%E5%83%8F%E7%94%9F%E6%88%90%E7%BB%BC%E8%BF%B0/</link>
      <pubDate>Wed, 30 Jul 2025 18:28:08 +0800</pubDate>
      <guid>https://lurkerlin.vercel.app/posts/%E6%8A%80%E6%9C%AF/%E6%95%85%E4%BA%8B%E5%9B%BE%E5%83%8F%E7%94%9F%E6%88%90%E7%BB%BC%E8%BF%B0/</guid>
      <description>&lt;h2 id=&#34;1-任务定义与研究背景&#34;&gt;1. 任务定义与研究背景&lt;/h2&gt;
&lt;p&gt;“故事图像生成”（Story-to-Image Generation）任务指的是：给定一段包含多个句子的自然语言故事，生成一系列连贯的图像来可视化该故事。与传统的单句描述生成单张图像的&lt;strong&gt;文本生成图像&lt;/strong&gt;不同，故事图像生成面临着&lt;strong&gt;跨图一致性&lt;/strong&gt;等独特挑战 (
&lt;a href=&#34;https://openaccess.thecvf.com/content_CVPR_2019/papers/Li_StoryGAN_A_Sequential_Conditional_GAN_for_Story_Visualization_CVPR_2019_paper.pdf#:~:text=In%20this%20work%2C%20we%20propose,sequence&#34; target=&#34;_blank&#34;&gt;StoryGAN: A Sequential Conditional GAN for Story Visualization&lt;/a&gt;
) (
&lt;a href=&#34;https://arxiv.org/abs/2211.13319#:~:text=descriptions,Sentence&#34; target=&#34;_blank&#34;&gt;[2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation&lt;/a&gt;
)。具体而言，在一个故事的多张图像中，需要保持主要角色的身份特征、服饰和背景场景的一致，同时根据情节发展进行变化。这与视频生成有所区别：故事可视化强调全局一致的场景和角色，而不是逐帧的连续运动 (
&lt;a href=&#34;https://openaccess.thecvf.com/content_CVPR_2019/papers/Li_StoryGAN_A_Sequential_Conditional_GAN_for_Story_Visualization_CVPR_2019_paper.pdf#:~:text=is%20visualized%20by%20generating%20a,is%20unique%20in%20that%20it&#34; target=&#34;_blank&#34;&gt;StoryGAN: A Sequential Conditional GAN for Story Visualization&lt;/a&gt;
)。例如，在故事中人物会反复出现、场景会延续或变化，模型必须&lt;strong&gt;解析指代&lt;/strong&gt;（如代词 he/she 所指的人物）并决定何时在帧间保持角色/背景一致，何时随剧情引入新元素 (
&lt;a href=&#34;https://arxiv.org/abs/2211.13319#:~:text=descriptions,Sentence&#34; target=&#34;_blank&#34;&gt;[2211.13319] Make-A-Story: Visual Memory Conditioned Consistent Story Generation&lt;/a&gt;
)。这要求模型具备对文本剧情的深刻理解和跨图记忆能力。&lt;/p&gt;</description>
    </item>
    <item>
      <title>CLIP图文对比预训练</title>
      <link>https://lurkerlin.vercel.app/posts/%E6%8A%80%E6%9C%AF/clip%E5%9B%BE%E6%96%87%E5%AF%B9%E6%AF%94%E9%A2%84%E8%AE%AD%E7%BB%83/</link>
      <pubDate>Thu, 13 Mar 2025 17:36:20 +0800</pubDate>
      <guid>https://lurkerlin.vercel.app/posts/%E6%8A%80%E6%9C%AF/clip%E5%9B%BE%E6%96%87%E5%AF%B9%E6%AF%94%E9%A2%84%E8%AE%AD%E7%BB%83/</guid>
      <description>&lt;h2 id=&#34;clipcontrastive-language-image-pretraining&#34;&gt;CLIP（Contrastive Language-Image Pretraining）&lt;/h2&gt;
&lt;p&gt;CLIP 由 OpenAI 开发，是一个 &lt;strong&gt;多模态（文本 + 图像）预训练模型&lt;/strong&gt;，可以理解图像和文本之间的关联。它的核心思想是 &lt;strong&gt;通过对比学习（Contrastive Learning）&lt;/strong&gt; 让模型学习 &lt;strong&gt;“文本 - 图像” 之间的匹配关系&lt;/strong&gt;。&lt;/p&gt;</description>
    </item>
    <item>
      <title>扩散模型</title>
      <link>https://lurkerlin.vercel.app/posts/%E6%8A%80%E6%9C%AF/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B/</link>
      <pubDate>Tue, 10 Dec 2024 06:12:06 +0800</pubDate>
      <guid>https://lurkerlin.vercel.app/posts/%E6%8A%80%E6%9C%AF/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B/</guid>
      <description>&lt;h2 id=&#34;vae-原理&#34;&gt;VAE 原理&lt;/h2&gt;
&lt;p&gt;似然生成模型：给定一个数据集 $x_D$，训练使得模型最大化似然 $p_\phi(x_D)$。&lt;/p&gt;
&lt;h3 id=&#34;1-elbo-的定义和公式&#34;&gt;1. ELBO 的定义和公式&lt;/h3&gt;
&lt;p&gt;VAE 的目标是对数据 $x$ 的分布 $p(x)$ 进行建模，但直接优化 $p(x)$ 通常不可行。通过引入潜变量 $z$，对对数边际似然 $\log p(x)$ 进行变分下界（ELBO）的近似：&lt;/p&gt;</description>
    </item>
    <item>
      <title>自然语言处理</title>
      <link>https://lurkerlin.vercel.app/posts/%E6%8A%80%E6%9C%AF/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/</link>
      <pubDate>Sun, 17 Nov 2024 18:36:27 +0800</pubDate>
      <guid>https://lurkerlin.vercel.app/posts/%E6%8A%80%E6%9C%AF/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/</guid>
      <description>&lt;h2 id=&#34;一语义表示的基本概念与方法演进&#34;&gt;一、语义表示的基本概念与方法演进&lt;/h2&gt;
&lt;h3 id=&#34;11-语义表示的核心定义&#34;&gt;1.1 语义表示的核心定义&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;语义表示&lt;/strong&gt;旨在将文本（如单词、句子、文档）的含义编码成机器可存储和处理的形式，例如实值向量或经过良好训练的神经网络参数。这种表示使机器能够 &amp;quot; 理解 &amp;quot; 语言的意义，而不仅仅是处理表面符号。&lt;/p&gt;</description>
    </item>
    <item>
      <title>深度学习理论</title>
      <link>https://lurkerlin.vercel.app/posts/%E6%8A%80%E6%9C%AF/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E7%90%86%E8%AE%BA/</link>
      <pubDate>Sat, 16 Nov 2024 18:36:28 +0800</pubDate>
      <guid>https://lurkerlin.vercel.app/posts/%E6%8A%80%E6%9C%AF/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E7%90%86%E8%AE%BA/</guid>
      <description>&lt;h2 id=&#34;一深度学习的理论支柱逼近优化与泛化&#34;&gt;一、深度学习的理论支柱：逼近、优化与泛化&lt;/h2&gt;
&lt;p&gt;深度学习不仅在应用领域取得巨大成功，其背后也有一套逐渐完善的理论体系支撑。该体系主要围绕三个核心问题展开：深度神经网络能够表示哪些函数（逼近理论）、如何有效优化神经网络参数（优化理论），以及训练好的模型为何能在新数据上表现良好（泛化理论）。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
