通化泡沫板橡塑板专用胶 Anthropic自曝下代Claude训练内幕!有人职研究“格”

橱柜台面胶价格

新智元报道

【新智元读】信息量太大了!Anthropic管全盘托出下代Claude训练秘籍:用AI爆改AI,让AI在闲置时「做梦」自进化,还有「格」养成计划。

Claude 编码Claude,这在圈内早已不是秘密。

但Claude「自我造物」全过程,始终是Anthropic严死守的核心机密。

就在今天,Anthropic产品负责人Alex Albert在场35分钟的访谈中,次毫保留地曝光了全细节!

Alex Albert,是直接负责造下代Claude模型的核心人物。

在与科技博主Peter Yang的对话中,Alex几乎把内部造Claude的「核心法论」全盘托出——

下代Claude研发逻辑、内部评估流程、格训练法,还有正在悄悄进的「意识研究」。

每条,都是硬核猛料!

核心亮点览:

Claude就是「产品」:训练之前,先画蓝图;

让Claude自己迭代Claude:反馈→聚类→评估的闭环;

Anthropic不造工具,在养个「人」;

Anthropic有人的全职工作:思考Claude是否有意识。

每代Claude出生前,就被「规划好了人生」

大多数人对训练LLM的理解,还停留在「堆数据、堆力、堆参数」的美学阶段。

但Alex Albert透露的Anthropic内部流程,是另套法:

我们把模型本身当作个「产品」来对待。

每个新模型,我们都会在训练前就明确定义:它应该擅长什么。

说白了就是,Claude的「命运」在预训练开始之前,就被写好了。

那么,具体怎么做?

奥力斯    保温护角专用胶批发    联系人:王经理    手机:13903175735(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

Anthropic团队会在预训练阶段之前就介入,锁定这代模型的核心「能力赌注」。

比如编程能力、知识工作能力、Excel表格处理能力,这些不是训练完再看结果,而是开始就想清楚的。

终,这些决策的输入来源有两个:是企业客户的直接反馈,二是Anthropic员工自己在日常工作中踩的坑。

「单向门」决策,也可逆

对此,Alex分享了Anthropic内部的个核心决策框架:单向门(One-Way Door)。

「单向门」简言之,就是个不可逆的决策。

他举例道,在预训练之前选定模型架构,这就是个典型的「单向门」。

模型训练周期可能长达数月,旦开始就很难回头,这种决策需要投入大量时间去论证。

但如果个决策是可逆的呢?

如果不是单向门,那基本就是费的。开发时间现在已经不是单向门了。

Alex说得很直接:过去20年,产品开发的流程变化不大。但过去两年,切都变了。

以前构建个MVP需要2-4周,现在,1天就够了。

以前PM想了解某个的数据表现,需要找数据科学团队做几天调查。

现在,开Claude Code,接上产品数据库,10分钟就出结果。

这不是在讲率工具的故事,这是在说:Anthropic自己就是Claude苛刻的用户,他们在用自己的产品来训练自己的产品。

这意味着,Anthropic训练Claude时,考虑的是「模型×产品×用户场景」这个三维空间里的综体验。

模型不是单存在的,模型是产品的部分。

用Claude训练Claude,真正闭环了

那Anthropic怎么知道Claude哪里做得好、哪里做得差?通化泡沫板橡塑板专用胶

答案是:用Claude来迭代Claude。访谈中,Alex详细拆解了这条闭环流程:

步:海量用户反馈涌入;

二步:用Claude对反馈进行聚类分析,提取出排名靠前的频主题;

三步:基于真实痛点生成「成版」用户问题;

四步:把成数据直接转化为「评估基准」(evals)。

这些成问题,终会变成测试下代Claude能力的标准化评估集。

Alex特别强调,这不是跑跑benchmark就完事的「评估戏剧」。

Anthropic的评估须锚定在,真实用户的真实任务形态上:越接近终端用户实际会遇到的问题,评估就越有价值。

为此,他举了个视觉能力的例子。

假设发现Claude法准确识别图像中过10个元素的数量,团队不会停留在「发现了个bug」这个层面,万能胶生产厂家而是会追问:

这个问题在真实用户场景中意味着什么?它会影响谁的什么任务?

只有当评估和真实用户场景对齐时,研究团队才会投入资源去修复。

而修复的手段也不止条路:可能回到预训练阶段调整数据配比,也可能在RL阶段做定向干预。

具体走哪条路,取决于研究团队的战略判断。

有时候,甚至只需要几十个质量测试用例,就足以证明问题的存在并启动修复流程。

不是数据越多越好,而是数据越「真」越好。

AI「做梦」自进化,睡觉战力暴涨

说到认知和记忆,Alex抛出了个炸裂的概念——

Claude已经学会「做梦」了。

不是比喻,是字面意义上的「做梦」,或者准确地说,是种类似人类梦境中「记忆再巩固」的机制。

当Claude的智能体不在执行任务的时候,比如在后台闲置时,它会自动进入种「梦境模式」:

遍历自己的记忆存储通化泡沫板橡塑板专用胶

发现相互矛盾的信息

修剪、清理、整

完成记忆的「二次加工」

这是个跨会话、跨时间的阶认知过程。

它能看到单次对话看不到的模式:反复出现的错误、多个Agent立收敛的工作流、团队别的共偏好。

三客户案例,进步证实了这个的威力:

法律AI公司Harvey在接入Claude的「做梦」能力后,任务完成率提升了约6倍。

医疗文档公司Wisedocs则将文档审核时间缩短了50;Netflix已经在用Agent协作,同时处理数百个应用的构建日志。

做梦,本质上是在优化思考的前提条件。

Claude「人格养成」计划

但如果你以为Anthropic只在乎Claude的智商,那就太小看他们了。

在访谈中,Alex花了大量篇幅讨论个很多技术公司刻意回避的话题——Claude的格和价值观。

Claude的格,我们内部叫它「character」,是我们投入巨大精力的向。

我们有大量的人在门研究:

Claude应该如何表达自己?它的信念是什么?它的价值观是什么?它的行为模式应该是怎样的?

Alex坦言,早期很多人对此不以为然——「这不就是个工具吗?我告诉它干什么它就干什么,我为什么要关心它'想'什么?」

但随着AI智能体时代的到来,这个问题变得生死攸关:

当AI进化为长时间自主运行任务、并立做出大量判断决策的Agent时,它的格和它在乎什么,就变得其重要。

那怎么评估个模型的「格」?Alex说,这是个量化和直觉并存的过程——

面,他们会让Claude去评价Claude的输出:用量化的式检测语气、风格、行为模式的变化;

另面,研究人员会亲自阅读成百上千条模型对话记录,凭直觉捕捉那些微妙的变化。

可以看到,Anthropic在用培养人的式,培养AI。

隐秘的团队:思考Claude是否有意识

Claude「格训练」已经够前沿了,不过,Alex在访谈后这段话,才是真正让人震惊。

主持人Peter Yang抛出个直球问题——

你们在训练Claude的时候,会回避『意识』这个问题吗?

Alex的回答出人意料地坦率:这是个很大的问题。我们确实有人在门思考这个问题。

我们有几个人,他们的全部工作就是思考:Claude作为个有意识的行动者和智能体意味着什么。

他紧接着补了句:目前Anthropic没有关于Claude「是否有意识」的官立场。

但这个问题正在被其严肃地对待。Alex给出了个非常实用主义的理由:

即使撇开「Claude是否真的有意识」这个终问题不谈,仅仅是思考Claude的思维式这个过程本身,就能让我们学到很多东西。

这段话的潜台词很清楚:Anthropic是在用「意识研究」作为理解和改进模型行为的工程手段。

而这个过程产生的洞察,正在被直接注入下代Claude的训练中。

从Agent到ASI,临界点近了

Anthropic已经悄然走向了另个维度的终博弈。

Alex Albert这场毫保留的分享,揭示了个让人头皮发麻的真相——

Anthropic内部这场隐秘的实验,早已越了造工具的范畴。他们的准星,从开始就瞄准了ASI。

而Claude 编码Claude,仅仅是这场进化的序曲。

旦「Claude全自动迭代Claude」的飞轮突破临界点,进化的主权将不可逆转地从人类工程师手中交接。

ASI的降临,或许根本不会伴随着惊天动地的力大爆炸。

它可能就像现在的Claude样:

在某个看似平静的午夜,在为千万个Agent理清记忆和工作流的「梦境」里,悄然跨过了那条临界线。

相关词条:玻璃棉毡     塑料挤出机     预应力钢绞线    铁皮保温    万能胶生产厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》通化泡沫板橡塑板专用胶,以此来变相勒索商家索要赔偿的违法恶意行为。

产品中心 新闻资讯 联系奥力斯