用Lovart重新进行角色设计-三国之张宝

初次尝试:基础彩色化
我给了 Lovart 一个简单的提示词:
根据手绘的图片,创建彩色的角色设计图,要求严格按照原有的构图
Lovart 首先对我的手绘稿进行了详细分析,识别出了人物的放松姿态、手持链条三节棍、头戴帽子、长发飘逸、宽肩膀肌肉发达的特征,以及右侧三个不同表情的头像。分析还算准确,但感觉仍然缺少细节。

第一张彩色版本出来了,AI 很好地保持了原有的构图和姿态。
风格探索:日式动漫风格
我继续要求:"改成日式动漫风格"

这是安达充还是横山光辉风格?看起来很复古。
Lovart 解释说这个版本采用了经典的动漫美学,包括更大更有表现力的眼睛、赛璐珞上色技术、更加风格化的比例和鲜艳的动漫色彩。
挑战特定漫画家风格
我想尝试更具体的风格:"改成藤崎龙的漫画风格"
Lovart 表示要转换成藤崎龙的独特漫画风格,但遇到了一些政策限制,于是采用了替代方案:

看起来有点像 KOF 里的拉尔夫和比利的结合。
不甘心的我又试了一次:"使用日本漫画《封神演义》的风格再生成一次"

没看出来和封神演义有什么关系啊。
意外收获:动作设计图
有趣的是,Lovart 还自动为我生成了一系列动作姿势,展现张宝的战斗风采:
跳跃攻击:
感觉是前冲不是跳跃,另外三节棍攻击应该是握棍不是握链。
防御姿态:
看起来有点奇怪,为什么拿着链子防御而不是举着棍子防御?
回旋攻击:
三节棍好像没有办法做出这样的动作,有点违背物理常识。
落地冲击:
这是刚做完「韦伯斯特」空翻吗?为什么武器又变成了链锤呢?
体验总结
Lovart 的整体体验看起来是经过优化的,会不断引导用户进行创作。不过生成的结果还不是特别完美,特别是对三节棍这种特定武器的理解和表现还有待改进。
从技术角度来看,这个机制似乎是使用了 LLM Agent 来承接用户的生成要求,AI 先进行思考分析,然后通过类似 Function Calling 的方式调用图像生成模型。
这种方式目前来看还存在可优化的空间,比如可以在每一步思考调用生图模型之前先让用户确认,这样能够减少生成结果与用户期望之间的偏差。