虎博科技发布大模型Tigerbot 开源1日Star已过1000

Tigerbot是虎博科技自研的多语言多任务大规模语言模型,已于6月7日发布并开源。上线仅一日,Tigerbot已在开源社区GitHub上获超1000 Stars,深受广大开发者喜爱。

(截至6月8日,开源社区github上Tigerbot的相关情况)

此次开源涉及模型、代码、数据三部分内容,包含 TigerBot-7B-sft、 TigerBot-7B-base、TigerBot-180B-research 等多个模型版本;基本训练且覆盖双卡推理 180B 模型的量化和推理代码;以及达 100G 的预训练数据、监督微调 1G/100 万条数据。

值得一提的是,开源版本中,TigerBot-7B-base的综合表现优于同等可比的OpenAI和BLOOM,TigerBot-180B-research 的参数量达1800亿,或是目前业内最大的大规模语言模型,而高达100G的预训练数据,更被视为目前业内最大且质量最优的开源预训练数据之一。

同时,虎博科技还与广大开发者共享了大模型应用开发所需的全套API,包括对话(Chat)、插件(Plug-ins)、微调(Fine-Tunes)等,并提供金融、法律、百科等专业领域数据,旨在构建构建大模型生态蓝图。

据了解,Tigerbot基于 GPT 和 BLOOM 两个开源模型基础上进行研发,在模型架构、算法以及计算经济性等方面做了一系列优化,主要体现在四方面:

(1)、指令完成监督微调的创新算法,以提升可学习型(learnability);

(2)、运用ensemble 和 probabilistic modeling 的方法,实现更可控的事实性(factuality)和创造性(generativeness),进一步 避免模型可能产生的“胡说八道”;

(3)、在并⾏训练上,突破了 deep-speed 等主流框架中若⼲内存和通信问题,使得在千卡环境下数⽉⽆间断,不仅大大缩短了模型训练的时间,每月还能节省数十万训练费用;

(4)、对中⽂语⾔的更不规则的分布,从 tokenizer 到训练算法等方面做了针对性算法优化,使得模型的问答更具中国文化属性。

然而,这些创新仅仅是个10人小团队在3个月内完成的。据虎博科技创始人兼CEO陈烨介绍,他自己也在一线写代码。过去三个月中,团队累计完成超3000次实验,“每天至少有3次实验,第一个月的模型表现已经可以达到OpenAI可比模型的八成。”根据 OpenAI InstructGPT 论文在公开 NLP 数据集上的自动评测,TigerBot-7B就已达到 OpenAI 同样大小模型的综合表现的 96%,且只是 MVP(最小最小可行性模型)。

秉持科学无国界无阶层的理念,陈烨希望共享阶段性成果,“大模型技术就像是一门新兴学科,将是颠覆式且长周期的,其未来的可能性将超过每个人的想象。”

对于开源,他给出了两点理由:

第一、作为一名AI领域内的技术人员,出于对技术最本能的信仰,他有一点热血、有一点煽情,“我们想要以世界级的大模型,贡献于中国创新。给行业一个可用的、底层基础扎实的通用模型,能让更多人快速训练出专业大模型,实现产业集群的生态打造。”

第二、TigerBot会继续保持高速迭代,并在目前赛跑的局面下,仍能保持身位优势。即便是看到有人以TigerBot为底层开发出了性能更好的产品,这对于行业内来说又何尝不是一件好事?

陈烨认为,现阶段不宜过早和过于理性地探讨产品、应用、场景和商业化,更重要的是推广这一人工智能基础设施的原创突破,促进技术的发展和更新,“开源就是最好的方式”。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。