研究新视角,AI + 卫星图像让经济可感知

“我所做的研究综合起来大概可以总结为‘可感知的经济学’ (Senseable Economics),当我们利用人工智能技术挖掘各种传感器大数据,并进行系统地量化、分析和预测,那我们的社会经济就变成了可感知的活体。”微众银行 AI 副总经理吴海山博士对 DeepTech 说到。

近期,吴海山博士带领其 AI 团队完成了一项有趣的研究:他们提出了一种新型的深度学习框架 SolarNet,通过对大规模高分辨率卫星图像数据进行分析,成功识别和测绘了中国超过 500 个光伏发电厂的分布地图,总面积超 2000 平方公里,通过对这些数据进行关联性分析,能为国家、企业在可再生能源发展方面提供决策参考。

图 | 中国的太阳能电厂地图,蓝点表示从卫星图像中探测到的光伏电厂

随着全球环境气候的变化和能源问题逐年凸显,探讨可持续发展已成为世界各国和诸多科研组织重要的研究课题。

AI 如何助力可持续发展?SolarNet 或许给出了一种全新的观察视角。

从卫星图像中解读可持续发展

吴海山一直以来主攻在时空大数据领域的研究和应用。

在加入微众银行 AI 团队之前,他曾在百度人工智能研究院担任高级科学家,主导过一项基于移动大数据对中国 “鬼城” 的研究,从数据的角度更为精准和客观地对 “鬼城” 的成因和解决办法进行了有效分析。

后来他在全球最大的资产管理公司 BlackRock 担任董事,负责基于人工智能的投资研究,用 AI 技术结合卫星、手机以及物联网等时空大数据,开发出一套可以对经济或企业发展走势进行量化和预测的数据系统,展现了时空大数据与社会经济系统之间的密切关系。在 2017 年,吴海山被《麻省理工科技评论》评为了中国 35 位 35 岁以下的科技创新青年。

关于本次 SolarNet 的研究成果和意义,吴海山表示,这可能是首次利用深度学习的方法来揭示中国太阳能发电厂分布位置和规模的尝试。

图 | 卫星图像中的光伏电厂

据了解,中国是目前世界上最大的光伏发电国,国家能源局统计数据显示:

截至 2019 年 9 月底,全国光伏发电累计装机 19019 万千瓦,同比增长 15%,其中,集中式光伏发电装机 13149 万千瓦,同比增长 11%,新增 773 万千瓦;分布式光伏发电装机 5870 万千瓦,同比增长 28%,新增 826 万千瓦。2019 年前三季度,全国光伏发电量达 1715 亿千瓦时,同比增长 28%。

但这些光伏电站具体分布在什么地方,规模到底有多大?一直以来都没有精确的数据参考,进一步量化展示中国可持续能源的发展现状,以及中国对世界能源可持续发展的贡献水平显得越来越有必要。

图 | 全国光伏电站分布情况

此外,多维度量化后的数据也能监测到中国光伏产业长期的发展变化细节。

光伏产业一直以来是靠政府补贴成长的产业,年度的政策调整对很多光伏产业公司影响很大,在中国,整个光伏产业链就有 200 多家上市企业,能有一个量化指数对产业投资发展来说是一个重要的维度参考。

当然,除了宏观层面,对于一家光伏发电公司来说,科学地掌握怎么选址建厂、选址区域的天气变化、什么方向角位光伏发电效率最高等要素,对于投资回报收益也非常重要。

“我们通过 AI + 卫星图像数据分析了解了这些情况,对于国家政策制定、投资者以及光伏发电公司来说都是有参考意义的,这也是我们做这项研究工作的初衷。”吴海山说。

技术上的挑战和突破

通常来讲,我们或许认为光伏发电厂应该大多建设在光照充裕、地广人稀的沙漠戈壁、高原草原等地区,从卫星图像上应该很容易辨识出来,但通过 SolarNet 的研究发现,在中国并不完全如此,中国有不少规模性的光伏发电厂建在湖泊中,甚至偏远山区,形状也是千奇百怪。

据了解,光伏发电在中国也是一个很重要扶贫措施,在很多偏远山区,土地贫瘠根本收获不了多少粮食,政府补贴光伏公司在这里建成电站,发电的收入能够给农民一定分成,改善贫困地区的发展问题。

中国区域地理的复杂多元化,从技术上给识别分析工作提出了更高的要求。

图 | 卫星图像中复杂的识别背景

2018 年 12 月,斯坦福大学的研究人员曾提出一种名为 DeepSolar 的深度学习框架,通过分析卫星图像识别美国居民区太阳能电池板的 GPS 定位和尺寸,但经过吴海山团队的研究发现,DeepSolar 在中国的卫星图像数据集上并不能实现很好的精准度和监测效果。

近年来,计算机视觉技术相关的图像识别、语义切割、场景分类等技术方向日渐成熟,人脸识别、车辆识别等在我们日常生活中已很常见,但区别于识别传统的照片图像,AI 技术在对卫星图像的识别分析中仍面临诸多挑战。

比如卫星遥感成像受多种因素影响,如天气、过境时间、成像角度等都对遥感影像有较大影响。不同卫星的图像分辨率也不相同,不同的时间段、不同的扫描波段和扫描区域都造成卫星图像有很大的细节差别;另外,太阳能电池板有时候跟山体、湖泊的背景颜色十分接近,再加上云层、阳光反射、高低分布等因素给目标识别检测造成很大干扰;太阳能电池板的纹理也可能因规格材质不同而不同,从卫星图像看色差较大;当然,卫星图像通常都是很大的文件,如何降低计算量消耗,提高识别精准度也是个问题。

图 | SolarNet 框架结构

在计算机视觉领域,2014 年,全卷积网络(FCN)被提出,它用卷积代替了网络的全连接层,比补丁分类方法获得了更高的精度,后来,在 ICCV 2019 上,北大团队演示了一种分割算法 “期望最大化注意力网络(EMANet)” 在多个数据集上取得了不错的测试结果。

图 | 主流算法框架的识别精准度对比

吴海山团队提出的 SolarNet 算法结合了 FCN 和 EMANet 的优势,得到了一种自适应的多任务期望最大化注意网络,将对卫星图像中光伏电站的识别精准度提高到 94.21%,并对中国各省市的光伏电站体量进行了一次排名,展示了各省份光伏发电的现有规模。

另外,AI 算法的持续优化离不开持续的数据更新。据悉,微众银行 AI 团队目前已经覆盖国内外主流遥感卫星近 10 年影像数据,综合影像更新频率达到 1 天,最高分辨率可以到 0.5 米。

图 | 中国各省已探测到的光伏电厂面积排名(单位:平方公里)

在下一阶段的研发计划中,吴海山的团队提出了 “在轨计算” 的设想,即把低功耗的 AI 芯片放到卫星里面,在卫星端就可以自行计算,如检测出一个区域有多少光伏设备或者其他图像目标。

目前 “在轨计算” 的设想正在开发测试中,太空中的真空、失重、温差等极端环境,以及太空中各种可能的辐射粒子、电磁脉冲等影响,都对芯片的稳定性、可靠性设计有极高要求。

但这些还是很有可能未来几年实现的。卫星遥感数据的更新目前按天计算其实有个很大的瓶颈,比如受到带宽影响,图像文件普遍很大但传输带宽很低,链路联通时间短,需要先回传到地面接收站,地面接收站再传到不同的卫星资源中心,之后企业才能得到这些数据。如果卫星通过在轨计算,能把分析检测结果直接传回来,这将对带宽的要求会大大降低,有望进一步提升对卫星数据的分析效率。

AI + 卫星图像数据预见更多可能

吴海山表示:“我们特别希望 SolarNet 的研究成果能真正帮助政府或产业做科学决策上的参考。”

目前关于光伏产业的统计数据大多是各个公司和地区上报统计出来的数据,但是如果有企业拿到政府的补贴和土地批文,却没有去建设光伏电厂,或者规模进度不符,之前是没有这方面监测系统的,SolarNet 或将填补这块空白。

图 | 内蒙古鄂尔多斯市达拉特旗库布齐沙漠的 “骏马” 光伏电站

一方面,从不同时间维度的光伏面积分布情况来看,能分析出多年来中国光伏产业发展的真实进度,有利于掌握变化趋势;另外,把光伏电厂分布面积跟发电量做关联分析,能了解到每个电站的发电量是多少,或能从卫星图像里面再提取特征来估算电量,输出一个更直观的参考标准,以便能够跟踪光伏产业的长期趋势和发展指数。

而从更广泛的商业应用角度来讲,AI 跟卫星图像结合做数据分析,或能在很多政策制定、经济监测、金融投资、环境防治等领域起到关键作用,近年来 ESG(Environmental, Social, Governance)投资评估理念兴起,环保、社会责任、企业治理等成了很重要的投资评估指标,而卫星数据的丰富度结合企业公开数据、移动数据、传感数据等,也能将数据评估更为精准化。

图 | 卫星图像信息丰富

比如在宏观经济层面,通过对路网、区域变化等方面的长期监测,能更好量化分析不同区域的经济发展;通过对原油油罐、农作物或牧场进行监测,能侧面对大宗商品期货提供分析决策;对光伏、风电等产业监测可为国家新能源产业发展提供参考;在农业保险领域,基于卫星图像分析能对气象灾害防治、受损定损等方面提供精准评估;此外,基于卫星图像还可以对景区客流量、车流量、机场停机量、港口船舶等进行量化基本面的数据分析。

“人工智能技术接下来应该更多考虑怎么帮助可持续发展,解决一些对国家和社会有重大意义的现实问题,而不是局限在实验室某个识别准确率提高了一个点两个点,这些都不如在实际应用中落地更有意义。AI 跟卫星图像结合分析能够帮助解决很多社会经济层面的问题,这不但实现了 AI 真正的商业落地,也将为我们打开对经济系统新的认知方式。”吴海山总结说。