首页 > 科技 >

北大推出“最强编程助手”:大模型 CodeShell-7B 开源,性能霸榜

发布时间:2023-10-19 20:32:02来源:
10 月 19 日消息,北京大学软件工程国家工程研究中心知识计算实验室联合四川天府银行 AI 实验室,今天正式开源旗下 70 亿参数的代码大模型 CodeShell,号称“同等规模最强代码基座”。

从项目详情中获悉,CodeShell-7B 基于 5000 亿 Tokens 进行了冷启动训练,上下文窗口长度为 8192,架构设计上融合了 StarCoder 和 Llama 两者的核心特性。

官方声称,CodeShell 的原始训练数据基于自家爬取的 Github 数据、Stack 和 StarCoder 数据集,以及少量“高质量的中英文数据”,这些预训练数据均经过了“数据判重、数据过滤规则、数据质量模型一系列流水线”。

CodeShell 构建了包含 7 万个词的词表,中文、英文、代码的压缩比分别为 2.83、3.29、3.21,支持中英文和代码的平衡且高效的编解码。

具体性能方面,为了获得最大的分布式训练效率,Codeshell 基于 Megatron-LM,声称“在 Attention 算子优化、数据预处理、数据加载、日志输出、状态监控、分布式训练管理等方面进行了深度定制”,支持 Flash Attention2 加速,训练吞吐量达到了每 GPU 每秒 3400 Token 的业界先进水平。

在代码评估基准 HumanEval 和 MBPP 中,CodeShell 超过了 CodeLlama-7B 和 StarCodeBase-7B,在 humaneval 的其它编程语言评测中,如 JavaScript、Java、C ,CodeShell 依然性能领先。

▲ 图源 官方 GitHub 项目

官方还介绍了基于 CodeShell 打造的“全能代码助手模型”CodeShell-Chat,该 AI 工具支持“对话”、“代码生成”、“代码补齐”、“代码注释”、“代码检查”与“测试用例生成”等功能。

而在IDE 插件方面,该插件目前支持 VSCode 和 IntelliJ IDEA,适用于各种主流编程语言,并提供了“专注模式”和“交互模式”,以提升开发者效率。

(责编: admin)

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。