观看后的总体感受

字节在多方向发力。

每一个形态它都在产品层面做到很极致。不仅在多模态对话助手(to C端) 、云原生、faas等领域,而更在入口端、生态端已经飞驰在高速公路上。

最触动我的是Trae Solo。虽然说是个期货,暂时先不关注了,但

为什么Trae一个面向程序员的app在两天里有这么多场次,这么大篇幅来讲,我觉得野心勃勃。

Trae Solo 将来有可能成为另一种形式的浏览器、或者说是另一种形式的集成办公软件。
说它代替浏览器,是因为它将成为一切信息获取的入口。
说它成为办公软件是因为它将成为生产一切数字产出物的制作工具。

对我来说,trae可以代替豆包,可以代替扣子空间,可以代替manus,可以代替fellou,可以代替一切agent,靠MCP让它有着无与伦比的扩展性,靠本身是一个VSCode环境让他天然有底层运行各种本地工具的能力,靠代码编写和编译可以直接弥补以上都无法实现的最终fallback。

既可以产出代码,又可以产出文档,又可以分析数据,可以是任何形式的工作伙伴和专家。

我之前也用Trae给小朋友做过 数学计算题和英语背单词 自动出题和批改并发送成绩到飞书,都是几句话就做出来了。 这东西确实很好,普惠大众。日常生活需求不需要自己会写程序了。

豆包大模型1.6新发布

这次名字中带有“Seed”,我想,这表示是豆包的新AGI时代的新篇章开始,AGI强调多模态。火山的方案在多模态方面一直做得领先业界,从去年豆包的语音交互自然、流畅,当时就让人感到追平ChatGPT了,给了我不小的震撼。

全系列支持多模态输入和256K上下文,包括doubao-seed-1.6、1.6-thinking和1.6-flash三个版本。其中1.6-thinking在数学和逻辑推理方面表现突出,据称达到高考700分以上水平。

DeepResearch功能:可在5~30分钟内完成深度研究任务,与Fellou、Manus等竞品直接竞争。该功能通过多轮思考和实时搜索相结合的方式,实现复杂问题的分析与解决。

多模态能力提升

  • 视频聊天功能支持自动识别画面内容,满足上下文相关的用户筛选需求
  • 增强的GUI操作能力,疑似整合了UI Tars技术
  • 支持图像、语音、音乐等多种模态的输入与处理

革命性定价模式:首创按”输入长度”区间定价,深度思考、多模态能力与基础语言模型统一价格:

  • 0-32K输入区间:输入0.8元/百万tokens、输出8元/百万tokens
  • 32-128K输入区间:输入1.2元/百万tokens、输出16元/百万tokens
  • 128-256K输入区间:输入2.4元/百万tokens、输出24元/百万tokens

按输入输出3:1比例计算,综合成本仅为豆包1.5深度思考模型或DeepSeek R1的三分之一,极大降低了企业级应用门槛

$$ 3/4*0.8 + 8/4 = 2.6¥ $$

Trae

实现技术普惠。

Solo
演示的Solo Web App Builder支持语音输入功能,为产品经理和开发人员等多角色协作提供了便捷交互方式。

多角色搭配功能允许产品经理通过语音快速输入需求,开发人员实时查看并转化为技术实现,显著提升协作效率。

期货,等着吧。

视频生成

火山引擎发布的Seedance 1.0系列视频生成模型带来了突破性的内容创作能力,包括Seedance 1.0 Pro和Seedance 1.0 Lite两个版本。

Seedance 1.0 Pro技术特性

  • 多模态输入支持:接受文字描述与图片输入,可生成多镜头无缝切换的1080P高品质视频
  • 行业领先性能:在文生视频、图生视频任务中排名首位,尤其擅长复杂场景构建和人物动作生成
  • 精准指令遵循:能理解精细的拍摄要求,支持影视级运镜效果和合理的运动交互设计
  • 开放平台接入:已通过豆包App、即梦AI、火山引擎等平台对外开放服务

Seedance 1.0 Lite版本

  • 轻量化视频生成方案,支持基础文生视频和图生视频功能
  • 优化了生成速度和资源占用,适合快速原型制作和轻量化应用场景

颠覆性定价策略

  • Seedance 1.0 Pro每千tokens仅0.015元,生成一条5秒的1080P视频成本约3.67元
  • 按此计算,一万元预算可生成约2725条5秒1080P视频,大幅降低了高质量视频内容的制作门槛

深度思考的视频生成能力结合了豆包大模型的逻辑推理与Seedance的视觉生成能力,可自动分析文本需求,规划镜头序列,生成符合叙事逻辑的视频内容。

豆包实时语音模型全量上线

开发者可以调用了
方言
轻声
唱歌
播客生成: 从:prompt、链接、长文本内容

DeepSearch、Agent

居然是在火山方舟的应用,没有上豆包,也没有上扣子空间??
功能和fellou一模一样,但是可以手动加装MCP,生成产出物可以更多样。
嗯好吧,对于我来说还是用Trae + MCP 实现吧。

生成网页可以勾选Canvas查看实时预览。

veFaaS MCP 可以公网部署,火山提供veFaaS MCP。

制作视频
Trae 爆款视频智造官 : 😐这玩意是自己创建的啊,需要搭配vevod MCP

这里有详细操作步骤: https://www.volcengine.com/docs/82379/1592795

PromptPilot

火山引擎发布的PromptPilot是一款专为大型AI模型设计的智能提示词优化平台,致力于解决用户提示词编写门槛高的核心痛点。它提供了一站式的自动化解决方案,覆盖提示词生成、调试、优化到迭代的完整生命周期。

核心功能

  • 需求翻译器:通过互动方式精准捕捉用户意图,将模糊需求转化为清晰指令
  • 智能优化:采用简化的”选择题”模式,自动生成多样化答案选项,引导用户明确需求
  • 复杂任务拆解:针对图片和视频场景表现尤为出色,能将多模态任务自动拆解成多个步骤并搜索最优路径
  • 闭环优化体系:支持用户标记Bad Case,将问题案例转化为数据资产,推动模型持续进化
  • 反思迭代能力:具备模拟人类思考的能力,能进行反思、总结和错误分析,通过多轮自动迭代找到稳定产出最佳结果的”黄金提问”

开发者支持

  • case雷达:帮助开发者积累case资产
  • Prompt SDK集成:可在应用中接入SDK,实现提示词数据持续回流
  • 支持联网搜索与知识库:能结合实时网络信息和自定义领域知识库优化提示词

视觉理解solution展示了PromptPilot的强大能力:自动设计方案识别停车场车辆数量,生成解决方案,并能用新样本持续验证优化。其生成代码的能力表明它已超越传统提示词工具范畴,成为连接自然语言与机器执行的桥梁。

落地

知识产品管理

强化学习
veRL框架,已开源。

多模态数据湖
向量化、以图搜图、导出到火山方舟

AI数据专家,data agent产品。

  • 知识库、SQL、会议纪要等,一小时内得到结果。
  • 5小时内得到可执行的营销方案。

AgentKit: 集成了各种前面的基建
TrainingKit: 比开源方案提高30%,集成了veRL
ServingKit: 推理优化。
这些,用火山方舟不就是直接有了吗,它只是适合想要接入原子能力的客户。自己打造大模型并且部署自己的模型用。

客户:微博智搜。 哈哈微博的人说大实话了:deepseek舆论炸场,但是部署成本不堪重负。

veOmniverse 居然合作了。

下午

HiAgent 变厉害了,
边学边干,在线学习 (底层应该用的是prompt sdk)
自动快速规划 搭建。

HiAgent智能体案例:
南开大学:科研智能体-科研情报
西安交大:口腔影像解读

agent元年

安全,但是人家客户就认死理就要私有化部署也没辙

分会场

多模态数据湖

火山引擎推出的多模态数据湖是AI云原生全栈服务的核心组件之一,专为处理和管理大规模多模态数据而设计。其核心功能包括:

  • 多模态数据统一存储:支持文本、图像、音频、视频等多种数据类型的一体化存储与管理
  • 智能处理能力:内置自动向量化转换,可将非结构化数据转化为高维向量,支持高效相似度检索
  • 跨模态检索:实现”以图搜图”、”以文搜图”等跨模态查询能力
  • 与大模型协同:无缝对接豆包大模型等AI能力,支持直接从数据湖调取数据进行模型训练或推理
  • 火山方舟集成:支持将处理后的数据导出到火山方舟平台,构建企业级知识库

典型应用场景

  • UGC内容分析与管理:社交媒体平台的图片、视频、文本内容的统一管理与智能检索
  • 企业知识库构建:整合文档、会议录音、产品图片等多模态知识资产
  • 智能媒体生产:支持视频素材的智能标记、检索与重组
  • 多模态训练数据准备:为AI模型训练提供结构化的多模态数据集

LanceDB

火山引擎已接入LanceDB(目前最受欢迎的开源向量数据库格式之一),为多模态数据湖提供了高效的向量存储和检索能力。LanceDB采用列存格式,支持高并发查询和动态数据更新,特别适合大规模AI应用场景。

多模态数据湖的底层原理涉及向量嵌入技术、分布式存储架构和跨模态数据关联算法,通过将不同类型的数据映射到统一的向量空间,实现高效的存储、检索和分析。这一技术为企业处理日益增长的非结构化数据提供了强有力的解决方案。

多模态数据治理

视频、标注
处理PB级别数据……
Nemo Curator
视频标注模型优化

也挺硬核,暂时用不到

Data agent 全场景革命

拥抱Agentic Data 最好的时机。
嗯我觉得还不成熟,主要是我没有那么多数据让我测,所以完全无法体会到它案例的价值。也不知道会有什么样的幻觉和掉链子。

方舟

prompt调优

trae

trae 有个内测版,更进一步未来

扣子

agent低代码 、全代码搭建
评测平台

Eino

这个还真可以自己去评估一下

今年总体都有一些思路上的设计:
沉淀case,增长循环
prompt工程调优

Deerflow 方舟可以免费体验
UI-Tars

欢迎关注火山引擎 Force 原动力大会开发者论坛!下午还有 3 场精彩的分论坛,感兴趣的可以关注👇👇👇

火山方舟开发者日:https://www.volcengine.com/live/event/force-2506-developer-fangzhou
扣子企业交流日:https://www.volcengine.com/live/event/force-2506-developer-coze
字节跳动开源开发者日:https://www.volcengine.com/live/event/force-2506-developer-opensource

开源场

KV cache
PD分离


https://deerflow.tech 深度研究
基于LongChain,

demo:
直接问问题
加入【背景调查】,对问题先调查然后拆解任务 : 在userpropmt中把搜索结果加入,一下子就有更好的上下文了。
【魔术棒】: prompt优化。
【edit plan】:提出修改意见

!!不能依赖于大模型做任何数学计算;
策略:用python生成程序,然后运行程序计算数学问题。

report,进一步编辑
支持MCP

部署方式:火山引擎FaaS demo,直接部署

langchain推广员啊哈哈 一行代码实现memory,两行代码集成MCP
https://www.langchain.com/

层级:
第一层意图识别, Coordinator,极低成本对问题做意图识别,没必要则不进入大模型回答的流程。
第二层,Planner,根据用户语义生成计划。
Research Team,机械化完全按照Planner的规划执行。 这一层不需要用大模型,因为大模型也会follow计划,完全是浪费。
researcher:包括调用 browser use
coder: 写代码
Planner对researcher team 的结果做判定,检查计划是否满足,并对所有team的多个计划任务做归总。