基于昇腾AI,空天院携手华为共同发布全球首个面向跨模态遥感数据的生成式大模型“空天.灵眸”

8月20日,在中国图象图形大会的华为昇思MindSpore技术论坛上,中国科学院空天信息创新研究院(以下简称“空天院”)发布了首个面向跨模态遥感数据的生成式预训练大模型“空天.灵眸”(RingMo,Remote Sensing Foundation Model)。

图片1.jpg“空天.灵眸”大模型现场发布图

“空天.灵眸”大模型是空天院联合北京昇腾人工智能生态创新中心技术团队,基于人工智能计算中心的昇腾AI澎湃算力训练而完成。在昇腾AI基础软硬件平台的支持下,尤其是依托昇思MindSpore AI框架原生支持大模型的能力,“空天.灵眸”大模型的并行训练及下游任务开发得以加速实现,已在8个国际标准数据集上达到领先水平,填补了跨模态生成式预训练模型在遥感领域的空白。

图片2.jpg

在模型设计、模型训练、推理优化等方向均进行了独特的技术创新,“空天.灵眸”大模型

深入结合光学、SAR(合成孔径雷达)等跨模态遥感数据的成像机理和目标特性,并在场景分类、检测定位、细粒度识别、要素提取及变化检测等典型下游任务中得到有效验证。

总体来看,“空天.灵眸”大模型具备如下四大亮点:

(1)以遥感特性为研发驱动

不同于现有遥感预训练模型大都采用有监督或者对比式学习的模式,基于昇腾AI的“空天.灵眸”大模型依托掩膜自编码结构,是面向复杂场景且更具通用表征能力的遥感生成式自监督预训练模型。

由于采用的是ViT和Swin Transformer等Transformer类骨干网络,该大模型可对遥感数据的局部和全局特征的依赖关系进行有效建模,并结合目标特性引导的自监督学习方法,通过引入几何、电磁、目标结构等多特性约束,让遥感地物通用特征可被自动提取。

图片3.jpg

(2)拥有跨模态遥感数据集

为提升遥感预训练模型的特征表达能力,“空天.灵眸”大模型的数据集包含了200多万幅分辨率为0.1m到30m的遥感影像,分别来源于中国遥感卫星地面站、航空遥感飞机等平台,以及高分系列卫星、吉林卫星、QuickBird卫星等。

同时,在数据集中包含了1亿多具有任意角度分布的目标实例,覆盖全球150多个典型城市、乡镇以及常用机场、港口等场景。所用样本数据具备遥感专业特色,且整个样本集都无需标注,能大幅节省训练数据标注成本。

图片4.jpg

(3)具备应用任务泛化能力

“空天.灵眸”大模型具备遥感数据理解、复原能力,可实现对跨模态遥感数据的共性语义空间进行表征。

针对不同的下游任务仅需修改预测头部网络,即可灵活快速迁移到不同领域的下游任务中,进行简单微调后可适应多目标细粒度分类、小目标检测识别、复杂地物提取等任务。

图片5.jpg

(4)广泛的产业应用方向

从目标检测识别、地物要素分类等任务的实测比较看,相对于业界通用的视觉模型,“空天.灵眸”大模型对遥感数据应用效果的提升是显著的。

可预见,在未来,基于昇腾AI的“空天.灵眸”大模型的应用不止于在实景三维等领域,或将进一步推广至国土资源、住建交通、水利环保等更多行业,为天临空地一体化应用提供整套解决方案。

“空天.灵眸”大模型的相关成果已在遥感领域顶刊《IEEE Transactions on Geoscience and Remote Sensing》上公开发表。

相关论文信息:

"RingMo: A Remote Sensing Foundation Model with Masked Image Modeling," in IEEE Transactions on Geoscience and Remote Sensing, 2022, doi: 10.1109/TGRS.2022.3194732.

论文链接:https://ieeexplore.ieee.org/abstract/document/9844015

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )