DeepSeek 开源 FlashMLA:高效 MLA 解码新时代
DeepSeek发布的FlashMLA是一款为Hopper GPU设计的高效多头潜在注意力解码内核。它支持BF16计算、采用分页KV缓存技术(块大小64),并在H800 GPU上实现了3000 GB/s内存带宽和580 TFLOPS计算性能。该项目主要优化变长序列推理,可显著降低显存占用和计算开销。FlashMLA的主要应用场景包括大语言模型推理、机器翻译、语音识别和推荐系统等领域。它能加速Transformer计算,提高推理吞吐量,优化长文本处理,降低延迟。该项目受到FlashAttention 2&3和CUTLASS的启发,是2025年AI计算优化领域的重要突破。项目已开源,开发者可通过简单的Python安装命令快速部署使用。这一技术创新将为依赖GPU计算的企业和开发者带来显著的性能提升,推动AI计算效率迈向新的高度。
随笔
未读
DeepSeek 开源周:他们正在发布什么?
DeepSeek启动了为期五天的开源周活动,计划每天发布一个核心组件。目前已发布了Fire-Flyer AI-HPC研究论文和部分核心仓库。该论文介绍了一种软硬件协同设计框架,通过使用Fire-Flyer 2方案和10,000张PCIe A100 GPU,实现了接近DGX-A100的性能,同时将成本减半、能耗降低40%。论文还介绍了HFReduce通信优化技术,以及包含HaiScale、3FS和HAI-Platform的软件堆栈。
在GitHub开源计划方面,DeepSeek已发布核心推理引擎和分布式训练框架两个仓库,未来三天将继续发布数据处理与预处理工具、模型微调与部署工具,以及完整推理系统与应用示例。DeepSeek选择开源的目的是降低AI研发门槛、促进知识共享、推动AI技术应用,希望通过社区协作推进AGI研究和工程发展。所有更新将在GitHub和Twitter(X)平台同步发布,欢迎开发者关注和参与。
代码
未读
Python爬虫 | 淘票票评论抓取
利用Python解密 sign及自动获取Cookies和Token的评论抓取实现 背景:评论数据抓取的挑战 淘票票作为一个知名的电影票务平台,其评论数据往往对用户公开,但为了防止未经授权的数据抓取,淘票票引入了多重反爬机制,比如sign加密、cookies验证以及复杂的token生成机制等。因此,实
代码
未读
如何优化 GitHub 上的前端 UI:以QAbot-zh/query-key项目为例
如何优化 GitHub 上的前端 UI:以 query-key 项目为例 在软件和应用程序的开发过程中,前端用户界面(UI)是用户与产品交互的第一窗口。一个优秀的前端设计不仅可以提升用户体验,还能有效地传达应用的功能和价值。本篇博客将通过开源项目 QAbot-zh/query-key 的优化实例,探