首发实测｜期待已久的HappyHorse 1.0，在千问能免费体验了

那个一度在 Artifical Analysis 的 AI 视频竞技场排行榜中登顶第一的视频生成模型 HappyHorse 1.0，我们终于能用官方版了，现在打开千问 APP 和千问创作Web端（ c.qianwen.com ），直接就能用，甚至还有免费体验额度。

前段时间，一款名为 HappyHorse 1.0 的视频生成模型，悄然登顶权威 AI 评测平台 Artifical Analysis 的 AI 视频竞技场排行榜，引发社交媒体的纷纷议论。直到阿里正式认领 HappyHorse，谜团揭开，这匹快乐小马出自自家新成立不到一个月的 ATH 事业群。

今天，阿里公布了 HappyHorse 1.0 的体验渠道，千问官方首发灰测，千问 APP 和千问创作Web端都能直接使用。

移动端（千问 APP），我们只需将千问更新到最新版本，通过点击首页的「HappyHorse」胶囊，即可直接进入 HappyHorse 1.0 的生视频创作面板，并且千问还赠送了免费体验额度。

PC 网页版（千问创作 Web 端），针对有更专业创作需求的用户，可以通过浏览器打开 c.qianwen.com 登录使用。网页端每次生成消耗积分，综合对比下来，还是比较具有性价比的。

无论是文生视频还是图生视频，均支持最高 1080p 的视频分辨率。我们可以自由选择 16:9、9:16 或是 1:1 的视频宽高比，生成时长可选 5 秒、10 秒或15 秒，并且支持原生生成音频。

APPSO 第一时间拿到了体验资格，评测榜单的排名能说明结果，但是 HappyHorse 1.0 生成的视频，到底有什么优点，一起来看看我们的实测。

通过实测，能看到其实 HappyHorse 1.0 并没有在复杂的全能参考选项上做文章，而是将核心发力点放在了动作、声音、空间的自然度上，加上合理的镜头语言，和风格的准确还原，整体表现确实惊艳。

用一句指令，直接搞定运镜和故事板

大部分的主流视频模型，都会把镜头运动当做一个库，给用户来调用。所谓的镜头运动，更像是从这些库里，推进、拉远、旋转，随机挑一个运镜方式，并没有配合画面里正在发生的事情。

而镜头感作为视频最重要的一部分，往往一眼就能感受到明显的差距，但它本身又很难用具体数值来量化。

HappyHorse 1.0 的处理方式也表现得可圈可点，切换镜头的时机必须是服务于作品。情绪需要收紧的地方，镜头近一点；需要交代环境的地方，给我们全景；背后是一套有叙事逻辑的调度。

同样一个提示词，丢给多个模型生成的视频画面，可能都会偏向「固定机位」，人物站在中间，缺乏镜头调度。因为这样最不容易出错，但是给视频的观感又大打折扣。

HappyHorse 1.0 在生成的视频里，则是像一个懂行的摄影指导，各种大师级运镜，从全景到近距离跟拍马蹄的扬尘，再流畅切换到低角度仰拍拔枪的瞬间。

它打破了传统的 AI 视频生成模型「为了稳妥而选择平庸」的安全构图，用大量扎实的镜头调度，把这段追逐戏的动态张力，原原本本地拍了出来。

情绪和动作都有了层次感，微表情也能演戏

对于很多视频模型，人物动作是最难解决的问题。即便使用详细的参考生成，到了后半段还是容易出现变形，比如手指多一根、脸部模糊或者动作节奏突变。

但 HappyHorse 1.0 在这个硬指标上表现非常稳定，一段 5 秒的视频，人物动作从头到尾基本保持连贯，穿帮的频率明显更低。

举个具体的例子，我们用的提示词是一个穿着白色裙子的女生走在花海里，从画面的左边走到右边，镜头跟随，女生转动裙子，捧起一朵花闻。

HappyHorse 1.0 给的动作过渡非常自然，女孩在花丛中走路完全没有那些「太空步」的滑移，从她转动裙摆，到捧起花朵凑近鼻子，整个动作流程行云流水。

动作有层次感，人物的表情同样真实。我们生成了一个小朋友咬下酸柠檬的视频，从咬下柠檬的瞬间，到强烈的酸味，开始带来面部肌肉紧绷、五官皱起、紧闭双眼，再到酸劲儿逐渐过去，面部肌肉慢慢放松，最后茫然地重新睁大眼睛。

通过动作和表情，让人物的情绪更有层次感，HappyHorse 1.0 生成视频也更不容易让人出戏。

官方数据显示，HappyHorse 1.0 的内部 GSB（Good-Significant-Bad 人类偏好评分）是 Wan2.7 的 3 倍，动作流畅性和清晰度都进步明显。

对话听起来更像真人，环境音也开始参与叙事

除了画面表现，HappyHorse 在 AI 视频配音上的表现也比其他模型更出色。

大部分的 AI 视频配音，都有一个很难绕开的问题：听上去像在「念」，不像在「说」。

语气是平的，语调不跟着情绪走，两个人对话的时候，一方说话，另一方就在那里等着，没有反应，没有表情变化，像两个人在分别完成自己的任务。

HappyHorse 1.0 在这里的处理，是对白真的有情境感。语气和语调贴着画面里的情绪，惊讶的时候语调是对的，轻松的时候节奏是松的。多人对话的场景里，听的那一方也是自然，会有表情，有细微的肌肉反应，不是在发呆等下一句。

环境音也是一样的逻辑。书写声、翻页声、远处的背景音，这些细节在大多数视频模型里是缺席的，或者听上去是从音效库里随机抓来的。

HappyHorse 1.0 里，这些声音跟画面里正在发生的事情是对得上的，而且能参与情绪。在安静的场景里，出现一点纸张摩擦声，或许比大多数配乐都更容易让人有沉浸感。

还有一个比较小众但实用的能力：多语言的唇形同步，覆盖了普通话、粤语、英语、日语、韩语、德语、法语等语言。

输入中文文本生成人物说话的视频，嘴型就能跟上语音。这个能力的想象空间相当大，从短视频配音到虚拟主播，未来都会用得上。

不需要复杂的风格提示词，轻松拿捏经典影视剧风格

如果说前面关于镜头、动作和声音几点解决的是 AI 视频的硬件问题，即 AI 视频不能让人出戏；风格的还原，则是让最后的画面更有戏。它会开始用色彩、光影和质感，去建立属于创作者的美学氛围。

风格的添加也很讲究，不是套一层滤镜，或者一个打包好的 LUT 包，它也需要视频模型对不同美学风格的了解，以应用合适的风格化。

HappyHorse 1.0 在特定风格的还原上，细节非常扎实。各类经典影视剧的风格、老港片里胶片的颗粒感和偏冷的高光，我们在实测的生成结果里面都能看到。

无论是老水浒/三国画风那种粗粝写实的历史厚重感、光影迷离的经典港风，还是强调高反差冷峻光影的美剧质感、主打细腻柔光的韩剧氛围，它都能精准拿捏。

如果你是个对画面质感有追求的创作者，非常推荐去千问里亲自感受一下这种「导演级」的美学控制力。

AI 视频赛道需要一匹黑马

告别了动辄半天的视频生成排队，一个 Video Arena 榜单第一的模型，现在不仅直接放到了手机 App 里随手可用，还给了免费体验额度，千问这波实在是给力。

回头看 HappyHorse 1.0的这几个特点，动作不穿帮、镜头有语言感，解决了 AI 内容质量的可预期性，让我们不用再抱着「抽卡」的心态，去体验 AI 视频生成。

对白自然、真实的环境音、还有精准的风格化还原，更是让我们和创作者少了大量的后期修补成本，不需要在多个工具之间来回倒腾。

如果把这种极低门槛、高容错率的生成能力放到具体的商业语境中，价值是显而易见的。

对于新媒体运营、短剧导演或是电商营销团队而言，过去需要庞大后期团队和高昂拍摄预算才能完成的分镜预演、概念设计或视觉短片，现在只需在手机或电脑上输入指令就能快速落地。在千问里，一个人就是一支高效的视听制作团队。

▲现在我们在千问里，就能得到一段真实的虚拟主播视频

过去一段时间，视频生成赛道的竞争逻辑是「谁的模型更强」——更高的分辨率、更长的时长、更复杂的物理模拟。

拼的是参数和算法的技术竞赛，但我们真正卡住的地方很少是因为「模型做不到」，大多数时候是「做到了但用不起或用不到」，等待时间太长、声画要分开处理、动作稳不稳全靠运气，每一个环节的摩擦都在把视频生成挡在专业用户和 AI 超级创作者之外。

而这一次，千问不仅省去了我们在不同工具之间切换的折腾，把最顶级的视频生成能力直接放到了最熟悉的对话框里，更借助底层模型的实力，把这些创作摩擦一个个彻底抹平了。

▲千问现在是工作、学习、生活和创作中全能 AI 助手

HappyHorse 无疑是一匹强劲的黑马，他是阿里新成立的 ATH 事业群，在模型能力、平台分发、具体应用这条完整链条上的一块关键拼图；在千问首发灰测后，链条开始跑起来了。

从帮助用户解决日常问题、提升工作学习效率的文本对话，到如今整合了极高水准的 AI 生图与视频能力，千问的进化路径已经非常清晰：它正在打破「生活提效」与「专业创作」的壁垒。

通过一次次的功能迭代，千问正将顶级的算力平民化，真正从一个简单的问答工具，蜕变为一个覆盖用户全场景的「全能型 AI 助手」。

作为普通人，我们或许不需要关心背后复杂的算法架构，因为最好的技术，已经通过千问以最顺滑的方式装进了你的手机里。

现在，轮到大家上场了。

如果你也想体验 HappyHorse 1.0 强大的视频生成能力，千问还同步开启了「天马行空」挑战赛。一共四大 AIGC 视频赛道，20 万现金奖池等大家来拿。

直接前往千问 App 或千问创作 Web 端，用灵感在这个没有门槛的新画布上，真正「天马行空」一次。

*文章内视频播放可点击该链接预览*