斯坦福大学意外地使用AI生产了超级强大的Cuda核心,而且表演令

作者: 365bet登录 分类: 科技 发布时间: 2025-06-02 10:06
好人,AI生成的内核比人类专家的特殊优势更好!斯坦福大学最近透露了一系列新发现,结果确实令人惊讶。 AI的内核在 - 深度研究操作中达到了本地Pytorch,其性能可以提高到约400%-Matmul(FP32):绩效达到Pytorch Torch.matmul的101.3%。二维卷积(Conv2d):达到Torch.nn.Conv2d的179.9%。 SoftMax:性能达到了Torch.softmax的111.8%。层归一化(分层):性能达到了Torch.nn.layernorm的484.4%。 Conv2D+Relu+MaxPool合并操作:绩效达到了Pytorch参考实现的290.1%,而Torch.compile()参考实现的189.0%。 。研究团队的最初目的是培养核心生成模型的综合数据。已经注意到,合成数据仅在测试阶段生成实际上可以生产出非常好的性能的内核。创始人:我没想到AI会替换内核工程师。有些人还发现,除了显着的性能提高外,研究团队采用的方法非常有趣 - 同样:而不是逐渐优化操作(例如爬山算法),他们还增加了每次重复之间的语言推理一步,他们鼓励搜索过程越多。也就是说,它们允许系统以类似的方式提出许多想法,以“思考”每次改进,从而找到更好的解决方案。让我们看看如何实施它。 Newas A代码,我制定了基于自然语言的发展的想法。根据Stanford Team Blog的描述,这种类型的内核生成的想法非常简单 - 给定火炬代码,然后告诉所有人您可以编写自定义内核来替换火炬操作员。这些核是用纯cuda-c编写的,而不必使用libCutlass,Triton和DSL(语言特定领域,特殊语言)等稀有物。与传统方法不同,该模型一旦出来后就不会直接更改该代码,但是第一个开发了优化自然语言的想法,然后将这些想法更改为新的代码变体。团队之所以这样做的原因是,“变化变化的“想法”的想法在差异中会缺乏,从而在当地的最低限度上崩溃,反复访问相同类型的转变或无休止的轨迹优化。为了进一步增强思想的多样性,斯坦福大学的多样性也不会使他们的方法更加多地发展。实施并使用最高的播放内核作为下一个轮换的种子。最好的内核开始出现。这些最佳结果中的大多数将出现在随后的扭曲中(总共5个旋转),主要是第4或5个。Kernelbench是由斯坦福团队本身提出的一组内核 - 代基测试基准。基准活动分为三个级别,其中1级是指单个原始操作,包括主要的AI构建块(例如卷积,矩阵矢量和矩阵 - 矩阵繁殖,功能的丧失,激活功能和层的归一化)。这一发现与以前的DeepMind的Aphaevolve结合在一起,以及一系列事件,例如发现0天的O3 Linux弱点,认为Netizens认为Gemini 2.5pro和O3功能已经达到了新的水平。回到斯坦福大学的项目,在生成过程中,您会发现该模型的产生的想法开始显示与人类经验相似 - 记忆优化:提高vari之间数据移动的效率OUS内存层次结构(全局内存,共享信息,寄存器),并确保数据访问最大化带宽并减少冲突的方式;异步操作和分泌的延迟:通过保存慢速操作(例如,使用计算或其他内存传输)来“隐藏”缓慢操作的延迟;数据类型和优化优化:使用低磁数据类型(例如FP16或BF16)来降低内存带宽要求并提高缓存效率;计算和指导:提高算术计算本身的效率,减少说明数量或使用专门的硬件说明;并行性和合并并行性:Iximimimation在流多处理器(SMS)中的活动线数量,以更好地隐藏潜伏期并改善一般吞吐量;反对流动和环涂层:减少与环,分支和索引计算相关的开销。此外,斯坦福队还展示了一组SPECIFIC优化轨迹。从中可以看出,并非每个优化的步骤肯定会使速度更快,但是在包含许多步骤之后,内核速度可以大大改善并最终超过Pytorch。在特定的实施方面,一个人询问开发CUDA内核时AI优化建议的建议是否可以转换为相应的代码实现,还是仅触发随机探索?那些建立更严格系统地验证的人没有进行,如果是经济验证,生成的CUDA视力线几乎与建议的建议优化相匹配。也就是说,人工智能并不能完全进行优化,而是真正试图实施自己的方法。中国创意团队意外地发现有三个研究:安妮·欧阳,阿扎利亚·米尔霍西尼和珀西·梁。 Ouyan目前正在斯坦福大学扩展Intelli学习医生大道实验室。他获得了麻省理工学士学位的学士学位,并在Nvidia Cudnn团队工作。 Percy Liang是计算机科学副教授,也是斯坦福大学统计助理教授。他目前是斯坦福大学基础模型研究中心的主任。他与Li Feifei一起释放并促进了许多研究工作。 Azalia Mirhoseini是斯坦福大学计算机科学助理教授,也是斯坦福大学推广实验室的创始人。他从事DeepMind,Google Brain和Anthropic的工作。包括他以前的研究MoE,ChIP设计算法Alphachip等。在这项研究中,我们最初希望生成数据以训练内核生成模型。但是,在此过程中会出现意外结果。仅在测试阶段生成的合成数据实际上可以产生非常好的性能的内核。因为这些核心利用了先前被视为难题的高级优化和硬件功能为了实现,团队决定以博客格式分享结果。但是,研究团队暂时不会在公共场所发布特定的数据,但也很容易提及此设计概念。最重要的是它表现出巨大的潜力。此外,研究小组还认为,该发现还具有一些最近的趋势 - 不再需要Mathirty Rethraining。有时,明智的搜索和分支技术可以解锁创新的科学问题并解决复杂的问题,并且通过通过验证器进行广泛的搜索可以提供更多问题。包容 - 在同一时间探索多个假设时,包括强大的推理能力可以带来更好的结果。例如Alphaevolve,Alphaevolution,Gemini 2.5 Pro深思熟虑。最终,团队说,这项研究仍然有足够的空间。例如,它们仍然有两个手:FP16 MATMUL:52%火炬的性能。Matmulfp16闪光注意力:9%Torch Performa与FP16或BF16相比,NCE Performance.NN.Functional.scaled_dot_product_sathention中,FP32通常在新启动的硬件FP32 Core Pytorch中较小。他们说,尽管今天仍然有很多限制,但他们仍然依靠未来的前景。毕竟,首先,他们无法产生可以正常运行的内核,而是通过继续优化搜索过程,Flash的性能就可以提高到一个良好的水平。值得一提的是,搜索使用的资源很少,使用了300万个令牌输入和400万个令牌输出。另一件事是,这不仅是一个试图构建内核模型的团队。 5月,德文认知开发了开放的资源Kevin-32b,这是第一个可以通过研究加固来编写CUDA内核的大型模型。它使用基于QWQ-32B的内核数据集中的GRPO,并实现了与O3和O4-Mini的性能更好的lotas。参考链接:[1] https://crfm.stanford.edu/2025/05/28/fast-kbernels.html [2] https://x.com/anneouyan/status/1928124885567467768ave3农场

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!