最新公告:

诚信为本,市场在变,诚信永远不变...

AG凯发K8国际

咨询热线

400-123-4657

第一系列

当前位置: 首页 > 产品中心 > 第一系列

RAG不存在了?世界首个1亿token神级上下文模型诞生前OpenAI大佬加盟获465亿融资

添加时间:2024-09-02

  

RAG不存在了?世界首个1亿token神级上下文模型诞生前OpenAI大佬加盟获465亿融资

  它比SOTA模型小了几个数量级,因此代码合成能力还不够好,但偶尔也会产生合理的输出■★◆:

  接下来就让我们看看Magic提出的第一个拥有1亿token上下文的模型——LTM-2-mini。

  尽管如此★◆◆■★,一个比当今SOTA模型小几个数量级的模型,仍然能够在无人协助的情况下编辑复杂的代码库★◆◆★。

  为此,Magic聘请了前OpenAI超级计算团队负责人Ben Chess■◆,并计划扩展其网络安全◆■■★■◆、工程、研究和系统工程团队■★◆★■◆。

  据称■◆★■■★,后者能够随着时间的推移扩展到数万台Blackwell GPU◆◆■★,并且这些集群将能够实现160 exaflops(每秒一百亿亿次操作)。

  流行的「大海捞针」评估是在长上下文窗口(「海」)放置一个随机事实(「针」)◆★,并让模型检索该事实。

  另一位联创De Ro,来自德国业务流程管理公司FireStart。在那里★■◆★◆◆,他的职位一路晋升至CTO。

  相比之下,LTM的每个用户在相同上下文中,只需要使用单个H100的HBM的一小部分。

  而Magic,就致力于让这个目标成线人团队,还有一个更大的目标■◆:共同设计长上下文、推理时间的计算能力和端到端强化学习,实现编码和研究的全自动化◆■★◆。

  此前流行的「大海捞针」■◆★,存在很多弱点,SSM、RNN和RAG都是利用了它们◆◆★。

  正是这些微妙的缺陷,削弱了当前长上下文评估的有效性★■◆★◆,使传统的递归神经网络(RNN)和状态空间模型(SSM)能够取得好成绩,尽管它们从根本上限制了O(1)大小的状态向量■■★■。

  哈希是随机的,也是不可压缩的。因此,这将要求模型能够随时从给定上下文大小的最大可能信息内容中★◆★★■■,进行存储和检索。

  虽然对于使用 React 等知名框架的先进模型来说,生成计算器是一项简单的任务★◆,但使用自定义的上下文框架更具挑战性。

  Llama 3◆■.1的每个用户■★◆,都需要638个H100来存储1亿token的KV缓存,而LTM只需要其中的一小部分★★◆■。

  而LTM(长期记忆)模型并不依赖模糊记忆,而是在推理时被训练处理多达1亿token的上下文。

  这里,LTM模型成功地使用自定义的上下文GUI框架创建了一个计算器,展示了实时学习的能力。

  在训练中,它们使用了一个特殊的token,来明确标记针的开始★◆★■★■,使评估的存储和检索难度降低到O(1)。

  对于这个问题的描述,实际上要在比现实场景中更加具体,并且这项功能在许多web应用程序中很常见■★◆★。

  Magic所采用的LTM(长期记忆)机制所需的计算和内存★◆◆◆,比Llama 3.1 405B的注意力机制少了1000多倍,这个对比太鲜明了。

  通过学习识别这种「针」的不寻常性质,模型可以忽略「海」中其他本来相关的信息◆★★★★,从而将所需的存储容量减少到低于处理真实任务时的水平■■★■◆。

  【新智元导读】RAG不存在了★◆■◆◆■?20多人初创公司Magic开发的代码语言模型LTM-2-mini,上下文窗口已经达到了1亿token★★■■,相当于一千万行代码■◆◆★■◆。AI模型的运作方式,从此可能从根本上改变!如今,团队已获4★★■★★.65亿美元融资■★◆★。

  因此★◆◆,这次团队为了规避「大海捞针」的弱点◆◆,专门创建了全新的评估方法HashHop——

  就如上文所说■★,对于每个解码的token,LTM-2-mini的序列维度算法在1亿token上下文窗口中比Llama 3.1 405B的注意力机制便宜大约1000倍。

  就如上文所说,如果模型能够在上下文中包含所有代码■★◆■、文档和库,包括那些不在公共互联网上的代码■◆■★,代码合成的表现■★,提升将是惊人的。

  而且,LTM-2-mini采用了序列维度算法,这种计算效率要比Llama 3.1 405B的注意力机制高出约1000倍。

  比如,为什么专挑Llama 3.1 405B做对比呢?如果模型比405B小100倍,那比它便宜1000倍,也是有可能的。

  GitHub最新的调查显示◆■■★,大部分开发者都已以某种形式采用了AI工具★■◆■。同时,微软也在4月份报告称,Copilot已经拥有超过130万付费用户和超过50,000家企业客户。

  哈希是随机的◆◆◆,因此是不可压缩的★◆◆■◆,这就要求模型能够在任何时候■◆■★,存储和检索给定上下文大小的最大可能信息内容。

  根据Polaris Research的估计◆◆◆■■,这个市场到2032年可能将价值271.7亿美元,而投资者对此也十分看好。

  为了消除这些隐性和显性语义提示★■★■■,Magic设计了一种全新的方法——HashHop。

  并且,模型只需要关注上下文中一个微小且语义上可识别的部分即可。于是,像RAG这样的方法也能获得成功■■。

  在这个过程中,团队还设计了一个新的评估上下文长度和可靠性的体系HashHop,取代了「大海捞针」。

  它的上下文窗口,包含1亿个token,相当于1000万行代码,或750部小说。

  只要花费100美元,你就可以在10分钟内完成一个任务■★■■■★,还能获得一个可靠的具有完整功能的pull request。

  由于上下文相对较短◆■,训练一直占据主导地位。但超长上下文■■■◆,可能会改变这一点。

  这种能力,极大地扩展了模型在实际应用中的适用范围■★★■。在软件开发中■■■,模型可以利用整个代码库、相关文档和库,来生成更高质量的代码了!

  网友感慨:所以,团队是同时构建了SSM★★◆、RNN或Transformer★★★■■★?

  可以看到,LTM模型能够在没有人工干预的情况下■★◆★,为开源仓库Documenso实现一个密码强度计。

  目前Magic正在Google Cloud上构建两台超级计算机,计划于明年上线:

  此外,团队还提出了一种更具挑战性的版本,其中模型跳过步骤,例如直接从哈希1跳到哈希6:

  其中■◆,模型的提示只有代码库和聊天记录(没有打开的文件■◆★◆★、编辑历史或其他指示)。

联系我们

电话:400-123-4657

传真:+86-123-4567

地址:广东省广州市天河区88号

邮箱:admin@youweb.com

LINK 友情链接: 优酷京东微博淘宝
电话:400-123-4657 传真:+86-123-4567 地址:广东省广州市天河区88号
版权所有:Copyright © 2002-2023 AG凯发K8国际,凯发国际电游,凯发官网入口公司 版权所有 ICP备案编号:粤IP**********