ai超级app是什么？

最近听到谷歌提的比较多的是One network Moti-modelity，多模态是在一个神经网络里实现的。现在MoE 在训练万亿大参数的模型上是非常有效的方法，但下一步如果做多模态融合，方法上会跟以前有什么不一样吗？

闫俊杰：这个是两个维度，第一个是中间这步都是一堆巨大的 transformer，为了提升效率，不管训练效率还是推理效率，大家主流的选择都是一套 MoE，比如 GPT-4。据传 Gemini-1.5 也是长这个样子。如果你做一个大概几千亿参数的模型，基本上这就是必然的选择。

第二个，你有不同的模态，怎么样能够合到这个大的以 MoE 为基础的主干模型上，这就是多模态。现在已知的东西是，怎么把视觉的理解跟主干模型合在一起，比如说像 GPT-4v，你先有一个巨大的 MoE，再把视觉的东西对齐，就可以有比较好的视觉的理解。

未知的东西有这么两个：

第一，GPT-4o 里面展示的，把声音也对齐到里面去，这是 GPT-4o 干的其中一件事。

第二，生成的这部分，比如说图片的生成、视频的生成能不能合进来。至少现在，视频是没有实现的，比如说 Sora 是独立的模型。为什么会这样？原因是视频的 tokenizer（标记）是有损的压缩，基本上要通过 diffusion（扩散）才能恢复到一个比较正常的状态，现在还没法整。当然会有很多人做，可能明年才会整合一起。但是视频的生成目前还不知道怎么整合的。

图片的生成我不知道，比如说在上一代 DALL-E 3 的时候，其实也没有整合在一起的，也是独立的模型。但是这次看 GPT-4o 的话，我感觉它们似乎整合在一起了，但是我不是特别确定。我觉得基本上底层的技术就是这样了。

张鹏：那么紧接着多模态统一融合的能力，会不会成为下一个阶段大模型领域、尤其是中国的创业公司们要去提升的目标？这是不是所有人都必须要跟上、必须要解决的问题？

闫俊杰：我更觉得是必须要做的事。其实这分两个产品，目前AI产品有两种，一种是满足娱乐需求的，一种是满足效率的。娱乐的不说了，是运营的属性、产品的属性，更加偏综合产品能力的事。

偏效率的一定是需要做（多模态）的，因为从历史上来看，所有效率的产品基本上最终大家只会用最好的。比如说有两个产品，一个可以做很多东西，一个只能搜文字，那大家一定会用那个啥都能做的那个产品。当然这个前提是说，这个（多模态）赛道是存在的。关于这个赛道是不是存在，其实也是需要很多努力的。

张鹏：可不可以理解为 Sora 是「选答题」、可以不选，但是多模态的统一融合是「必答题」、如果答不好就会出局？

闫俊杰：我觉得你这个概述还是挺好的，之前没想到这样，确实更像是一个必答题。

Sora 这个东西其实有不同的用法，比如说有 PGC 的用法、作为工具属性的用法，也有 UGC 的用法、会涉及很多产品、内容的东西，不是 AI 都要做的东西。

但是在工具类、效率类、助手类的产品上，只要有公司做出来（多模态），其他公司必须跟上。因为基本上就这么点技术。

谈生态：「智能语音助理」争夺战，巨头和创业公司是复杂的竞合关系

张鹏：这次我们看到语音助理这个事，苹果想用到 Siri 里、谷歌想非常深层地用到安卓体系里，似乎它会是个很重要的入口级的东西，这个事最终会是巨头的 Game 吗？创业者还能干吗？

闫俊杰：首先，这个产品的所有用户体验几乎都来自于模型的能力。它不太取决于产品是巨头的产品、还是创业公司的产品，只是取决于背后是什么样的技术水平。它考验的是你能不能做出一个体验最好的模型。这里面涉及到你的技术模型怎么做、怎么做很好的对齐、怎么优化你的延时，怎么提高工程的效率、怎么降低计算成本等等。

其次，在商业层面，这个产品背后肯定要消耗成本。因为现在的AI产品跟早期移动互联网产品的本质区别是，以前我们不需要考虑每天维护用户的成本，现在我们都要考虑。所以这一代产品怎么变现是比较直接的。而手机上产品的商业价值有多大，几乎取决于它有多长的用户时间，因为用户时长总是有标准化的变现手段。

这样的产品，假设它能做到大部分的需求都在里面解决，比如说当我想要搜索的时候，我不需打开百度了。或者我需要看一个视频的时候，不需要在抖音里看了。只要它占有用户足够长的时间，那它的商业化效率就是足够高的，它的商业化跟时长是成正比的。

这个事最终会变成，产品的竞争力取决于技术能力，商业竞争力取决于你占有多少用户市场。

张鹏：我再具象一点，苹果属于完整的从硬件到软件的掌控者、安卓在操作系统上有天然的优势、OpenAI是新型的基于大模型能力的创业公司，如果未来这三家公司都在抢占语音助手这个最关键的入口，谁更有可能是赢家？创业公司能赢得这个位置吗？

闫俊杰：我觉得这里面有各种各样的博弈、竞合关系，在搜索里已经发生了。我们能看到苹果里集成了谷歌的搜索，谷歌每年给苹果很多钱，为什么谷歌愿意付钱？显然因为谷歌在苹果里做搜索的商业价值，要大于谷歌自己付的钱了。

但是我觉得不管怎么样，如果看第一性原理的话，那在这里面如果谁能把东西做出来、并且把体验做得显著地好，那至少在里面你应该会有一席之地。

这件事我觉得更利好于拥有设备的公司，为什么？比如说我买一个小米的手机，只要给小米付一次钱，之后这个小米手机创造多大的价值，其实都跟小米没有关系了。唯一有关系的是，小米商店里面的分发里面会有分成，其他的基本上没有关系了。

张鹏：也有一些负一屏的内容广告，都是比较薄了。

闫俊杰：负一屏的内容水平显然是没有抖音或者小红书高。其实手机提供了很多用户时间，比如说我在小米上装了一个抖音，一个用户在抖音上花了很多时间，但所有的钱跟小米一点关系没有，都被抖音转走了。

我觉得一个比较强的 AI 助手的好处是说，它确实能够让手机的操作系统这层占领很多用户的时间，因为可以满足很多多样化的需求。这个事相当于是说它其实是把很多价值从 APP 里拉到手机上。

张鹏：最近我们也看到传闻，苹果跟OpenAI有可能在智能助手这个层面产生合作。所以按照你的推理，一家在大模型里做的非常优秀的公司，和一个对生态硬件、软件有掌控力的手机巨头，最终大家合在一起、在未来的生态里产生新的价值分配，这是符合逻辑的？

闫俊杰：对，实际上就是用户时间的分配，而这又考验背后的技术和产品能力。

张鹏：反过来说，如果 OpenAI 没有跟苹果合作，而是成为最强的 Super APP，作为独立的力量去挑战现有的生态、甚至对原有价值链进行重构，你认为存在这种可能性吗？

闫俊杰：这主要看它的规模。现在 1000 万 DAU 的 APP 显然不够格。到 Mata 这种 10 亿 DAU 量级的，估计会有本质的变化。但即使是OpenAI，距离这个也有 100 倍的距离。

张鹏：现在想着做所谓大一统的 Super App、超级入口还是很难实现的，今天更现实的是怎么把DAU从一千万涨到 1 亿，这也是 OpenAI 很头疼的事。

闫俊杰：我猜这也是它们为什么这么在意语音的原因，因为这个东西确实有可能会提高渗透率。

谈技术路线：投入通用基础大模型、打造通用产品，能看到真正的未来

张鹏：前段时间在整个创业者的圈子里，大家围绕基础模型和开源模型争论很大。本质上是说，你要么自己做一个智能引擎，要么就买一个自己改。其实模型、产品双轮驱动，自己同时做基础模型和产品，滚动着往前走是最好的。但很多创业者说这风险很大，模型的一次迭代跟不上、或者产品 PMF 的一次失败，就不行了。你怎么看这两种路线？

闫俊杰：我觉得这本身是风险很大的事。先不说同时做模型和产品，只做模型、或者只做产品，本身就是风险很大的事。

张鹏：创业其实就是生死游戏。

闫俊杰：对，确实是很残酷的事。比如我们看美国的公司，OpenAI 是都做，Aanthropic 之前只做模型、昨天他们把 Instagram 的 CTO 也招过去了，我不知道是不是它们也有可能做产品。我觉得至少对做模型的公司来说，自己做产品几乎是必然的选择。我们算是比较坚决的，有些公司后面变成这样了，这是必然的。

反过来，其实对做产品的公司也是一样的。比如说我们国内的开放平台上，有很多做产品的公司和客户，其实规模还挺大的，大概有接近一千家。这里面有大的公司，也有小的创业公司。其实坦白说，对所有这些公司来说，如果它们的产品得很大，他们也希望自己掌控模型的。这也是必然的一个路。

所以这里面核心的考虑还是说，如果你觉得这件事是对的，本质上是说你现在有多少资源、最大化优化你们想优化的目标。对我们来说，我们的目标是要最大化地优化用户体验，那我们觉得这两个东西（模型、产品）都是重要的，只能两个东西都做，才能最符合我想优化的目标。

不同的人定义的目标不一样、路径不一样，就会出来很多不同的公司。

张鹏：所以产模一体归根到底是我们追求的最终目标，只是很多人基于今天已有的资源，会发现烧钱太高、风险很大，但这只是阶段的选择问题。

闫俊杰：还有一个更底层的原因。举个例子，假设有个需求要满足，而这个东西需要通过模型来满足——那如果是（模型和产品都在）一家公司，你的路径是优化这个业务指标就可以了。但如果（模型和产品是在）两家公司，你们干的事是把这个指标转成一个对模型的要求，让给你提供模型的公司优化这个指标。

这中间本身损失了很多信息，并且让周期变长。这个事一定不是最大化业务指标的方式。

当然这个事上，微软例外。核心原因是，微软的这些场景，Bing 的搜索、还有 office，其实都是一些能够变得非常标准化的东西，基本上主要依赖于模型的通用能力。OpenAI 的通用模型是最好的，那就可以给这些产品用。在这种情况下（模型和产品分开）是合理的，但是大部分情况下不是最优的选择。

张鹏：你提了一个非常好的问题，就是我们到底是要根据模型能力造产品，还是要根据产品目标去改模型？我打个比方，如果模型是一把枪，产品是靶子，我们今天到底是要造更通用的机关枪、在更多领域命中靶子，还是应该造一把高精度的狙击枪、就打中某个具体的靶子？

闫俊杰：其实这个事背后有一层含义，咱们讲这个时间点，AI 背后是有一些技术红利的。这个红利是说，全世界有这么多聪明的人、这么多资源、这么多社区在做这件事。这件事的价值或者能力远大于单个公司，也大于 OpenAI 的，显然也大于任何一个中国的创业公司。

所以一家公司的研发水平不是一家公司封闭做出来的，而是这家公司的自身能力加上整个行业整合出来的。只是不同公司利用的效率不一样。包括 OpenAI 在内，它们很多的东西不是原创的，可能是谷歌做出来的，但是它们把它很好的整合在一起，扩大规模，就变成现在的状态。

其实把模型做通用这件事，是一个比较容易来吸收到整个社区进展的途径。这件事本身是有巨大的红利的。

张鹏：今天你应该站在那个位置上，把更多的能力拿出来，让更多的人跟你共创，也许是用户、也许是产业里面的其他创业者兄弟们，OpenAI有这样的感觉。但如果今天你只是做某一个产品、维系你自己的「菜园子」，你可能失去了世界与你共创的机会。

闫俊杰：客观的说不是世界与我们共创，是我们与世界共创。

张鹏：我看 Sam Altman也不断提醒，大家不要基于今天模型的一些具体问题去打补丁，这其实是浪费时间。因为技术在滚滚向前，你在这个时空刚把补丁打完，这件衣服可能都已经换了，会出现这样的问题。

闫俊杰：客观上说能够做什么产品，其实是由技术的周期决定的。

比如说目前这一代，我们见过的所有产品基本上是以文字的交互为主，产品的功能基本上是助理这个层面的。不管是娱乐还是效率，基本上都是 copilot（辅助助理）这个框架。只是不同的人基于不同的理解、不同的资源、不同的团队，组成了不一样的东西。

假设我们有更好的模型，能力比现在再显著地提升，比如所有的测试都可以做得非常好，它可以独立来工作了，就不是一个 copilot、可能是一个 auto-pilot（全能助理），这显然会产生更多完全不一样的产品形态。

但是这个东西不是产品设计出来的，而是当你把技术 Push 到某一个阶段的时候，这个产品自然就清楚了。

谈成本：技术成本两年内可能降 100 倍，这比探索技术上限容易多了

张鹏：我想把话题延展到很具象的东西，前些天我跟投资人算了算账，今天千万级DAU的产品，恨不得一天花掉 200 万的成本，很高的。比如今天 GPT-4o 如果容纳了更多用户、获得了更大的用户粘性，它每天的成本得有多高？你肯定掌握一些成本结构的判断，能不能帮我们算一算？

闫俊杰：其实语音比文字便宜的，因为语音慢。比如文字一秒要生成 20 个 token，但语音一秒只有 4-5 个 token。而且人听的时候也慢，我看一千个字只需要一分钟，但是我听一千个字应该是很长的时间。

所以假设使用相同的时间，语音其实更便宜的。

张鹏：这挺反常识的。

闫俊杰：你觉得声音更贵，其实更便宜，这是第一点。

第二，优化或者降低成本一直是学术界非常经典的研究领域，很多年前我自己也在这个领域做了很多工作。但它实际上不是业界最高端的领域，最高端的领域一定是说如何拓展技术的边界。

一旦你能够拓展技术边界之后，怎么把成本降低 10 倍这件事，其实从最早的机器学习时期，比如我当年读博士的时候，到 2012-2022 年这 10 年用 CNN 来做（卷积神经网络）的时代，怎么来量化、减值、增流是有一套非常标准的 pipeline。

在 Transformer 这一代里面，其实也可以复用上一代的 pipeline。比如说做量化；比如说当你有一个非常长的 context window（聊天框）的时候，如何做缓存，效率更高、时间更低；比如说如何优化你的 attention（注意力）……有很多方法来做这件事，这其实是没那么难的东西，你只需要把每步做得足够好，拼在一起就会带来很大的变化。

张鹏：也就是说，相比于探索新大陆，现在掘地三尺把矿挖出来其实挺容易的？

闫俊杰：这个事我们想一下就知道了，比如说去年 3 月份刚有 GPT-4 的时候，那个时候又慢又贵，但是我们现在其实看 GPT-4o，包括之前的 GPT-4turbo，又便宜又快，效果又好，这只是过去一年发生的事。价格可能降了 10 倍，但实际上 OpenAI 比这个价格的降低还要更多。

我们大概算过，如果有两年的时间，成本可以下降近 100 倍。其实我觉得，技术的上限这件事相对来说没那么确定，需要更多的探索。但是成本下降这事，一定是有办法的。这个事在学术界已经发生了三次了。

GPT-4o 成本｜图片来源：OpenAI

张鹏：今天有的人在拼命地优化技术成本，有的人在拼命提升模型能力、想做到最 top，在你看来后者是不是更重要？

闫俊杰：我觉得从结果上来是这样的，但是从过程上两个事是相互转化的。这个其实是大模型里面一个非常重要的规律是，效率跟效果其实可以相互转化的。

假设训练精度一样，而你的算力是别人的 1/10，这意味着你能把效率做得很高，那你一定是能够把模型的上限变得足够高的。或者反过来说，如果你想要能力达到那个足够高的上限，那你一定只有把效率变得非常高，这个事才有可能。

所有人的资源都是有限的，一定是你的效率足够高、你的上限才能更高。实际上并不是我先冲到边界后再来做优化，实际上两边是要一起做的。

这也是为什么大部分研发越往上越难的原因，它要求你综合考虑。

张鹏：所以 Sam 说「给我多少万亿、我就能把 AGI 迅速实现」这种话，是不是太不现实了？

闫俊杰：如果类比的话，比如台积电现在是 7 纳米，那他接下来肯定是 5 纳米、3 纳米、2 纳米一代代往下做。他不可能把 5 纳米、3 纳米都跳过了，突然间说自己能做到 2 纳米。我觉得这个不太对，你很难把中间几步跳过去。

张鹏：远大的目标还是要一步步走，不能奢望直接通向目标，这也是创业的本质。

闫俊杰：当然可能它们太强了，我没有理解它们的精髓之处。不过正常情况下应该是这样的。

【熊猫出海】海外广告媒体代理开户投放在美洲、欧洲、中东和非洲以及亚太地区16个国家拥有25位Regional Partner，全球合作伙伴覆盖五大洲，以众多的外媒资源，助力中国企业远洋海外。同时，多年来帮助无数中国企业通过海外媒体传播的方式走向世界。 <<<<<<<=========================================================================<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< 专注海外流量，提供Facebook&ins、Google、Twitter、TikTok、line日本&泰国&中国台湾、Zalo越南、Yahoo日本、Naver韩国、Linkedin等海外社媒广告开户，广告投放，海外代投，海外Telegram群发、WhatsApp群发、FacbookGroup群发工具、越南流量&网盟、越南开发者流量等合作，请联系熊猫出海。

【1】印度本土广告投放平台InMobi/Hotstar/AdColony【2】如何定制开发日本韩国印度金融资讯网站&APP？【3】Yahoo日本广告开户、投放指南此外，如果您有任何疑问或问题，请随时点击下面的联系我们与我们联系。

#FB不死号，FB不死主页，FB不死广告户，#FB白名单#，#FB三不限#，#Google老户#，#海外精准加粉#，#落地页加粉#，#广告投放加粉#，#FB精准粉#，#Facebook加粉#,#WhatsApp加粉#,line加粉,TikTok加粉,Instagram加粉,tinder加粉,#海外加粉#, #facebook代投放# ，#Google代投# #全球上粉,海外上粉,海外推廣,跨境營銷,海外營銷,全球營銷,全球推廣,海外引流,全球引流,流量引流，日本投资粉，欧美日本交友粉，日本line粉# #popin开户代投#，#dable开户代投#，#avivid开户代投#，#海外华为开户代投#，#Kwai开户代投# #日本精准粉#，#韩国投资粉#，#韩国line粉#，#韩国naver精准粉#，美国投资粉，#美国精准粉#，#交友粉#，欧美精准粉，#印度网赚粉#，#印度兼职粉#，台湾股票粉，台湾精准粉，新加坡交友粉，马来西亚交友粉，越南网赚粉，泰国网赚粉，印尼网赚粉，#台湾谷歌投放粉#，#海外股票精准粉#，#股票粉#，金融粉，币圈精准粉，表单精准粉#

官网: www.pandawm.com

微信群社区：facebook520.com