模型驱动的可解释深度学习
引言
模型与数据双驱动不是什么新鲜的概念了。从深度学习方法刚开始在图像重建方向流行时开始,人们就陆续提出各种模型驱动的深度学习框架了。到ISTA-Net等简洁的端到端方法问世,这个策略已经成为一个效为成熟的工具了。它在实际应用中的有效性已经被包含我们团队在内的大量工作所验证,针对特定问题,通过将传统可行的算法框架改造为深度网络前向流程的骨架,合理地将领域知识嵌入深度网络,极大减轻学习的难度(大框架已经确定了,只需要学习细节)。而且,几乎可以确定的是,越是领域知识复杂的情况,模型与数据双驱动的深度方案的性能就越优于纯数据驱动的方案。
但是,需要注意的是,这个策略太过于自然简单了,任何一个研究人员,只要会深度学习,同时针对特定问题的传统求解算法,那么它就可以轻易地构造出一个模型与数据双驱动深度网络。这几乎没有任何难度,甚至不需要参考任何一篇模型与数据双驱动的前人工作。
因此,我们认为,这个研究方向的重点不在于把已有算法展开为网络这件事,而应该在于:针对特定的问题,如何设计合适展开为深度网络的新模型与算法?关键要素应有两点:(1)如何把模型与算法构造地便于展开为合适高效训练的网络?(2)这种新的求解模型降低了我们对求解算法的高效性的要求,允许更复杂的模型被设计,那么,如何为老问题设计新的精度更高的模型?
1)高光谱图像融合网络:MHF-Net
高清高光谱图像的直接观测成本很高,所以一般需只能观测到高清的低光谱图和低清的高光谱图。这个观测的过程已经有很成熟且精确的研究了,如下图所示:
所以高光谱图像融合问题就是从观测的Y和Z中恢复出X的问题,从解方程的解度就是,求解关于X,R,C的方程组。这个问题是欠定的,所以有一定的难度。
深度学习方法在这个问题上很快就在一些特定的场景下,取得到超越传统方法的结果。然而那时存在深度学习方法一般都是基于黑箱的卷积网络进行的,因此,在可解释性与泛化性上总是不尽如我意。
我们认为除去了简单利用箱网络这一纯靠学习的处理流程外,是可以人为设计很合适的个问题的可处理流程的,毕竟过去没有深度学习的时代,我们也是可以推导出很好的求解流程的,因该把这种推导在构造深度网络的时候利用上。
总结来说,现在深度网络方法的问题在于无法利用上面那两个研究成熟的观测模型,以及无法利用高光谱图像最重要的一个属性:低秩性。
于是我们做了很多设计,得到一个自认为不错的处理流程,可以使结果符合低秩性,并且满足我个人对高光谱融合的所有想象,但最后我们发现,手工设计的流程其实和此我们熟悉的算法计算式是完全一致的。那么是否存在某个模型,它的算法就能满足我们心中最佳处理流程的需求?
这个思考一开始我们并没有信心一定能验证他,因为我所学习的应用数学方法一般是先构造模型,再构造算法,才会得到求解流程。没有因为求解流程很眼熟从而逆推出模型的先例。
跳过很有趣味性的一系列探索和推导,直到我把高光谱低秩性的特点与上面的两个观测模型组合在一起,运用了大一和研一两个阶段的矩阵分析,得到了下面的两个结论:
知道了我们可以把求解 X, R, C 的过程等价转换为求解Y_hat,A,B,C的过程。并不需要真的求解X,只需要求解Y与X相比,缺失的部分Y_hat,就能由YA+Y_hatB组合出一个低秩的X。这样组合出来的X还能保证第一个观测模型从理论上一定是被满足的。从而我们可以构造下面的模型+算法+网络流程:
这样构造出来的网络解释性很好,关键是网络的输入也有了低秩性与观测模型一的保证,网络的结构如下:
实际上它的前向过程,不仅与我一开始想像的所有最佳流程一致,而且还真补了一些我自己考虑不周的地方。至今我也认为它是一个非常合理高光谱融合网络。
这个方法的构造过程是十分让人享受的,我们的实验几乎没有调参,第一遍就大大超过了传统方法的性能,投稿TPAMI的时候第一轮就是小修,审稿人感谢了我们对领域的贡献并评价这个工作是一股新鲜空气。
它还能得到一些传统深度学习方法完全不具备的功能,比如我们在TPAMI中的盲融合版本可以在深度网络方法完全失效的情况也,在与训练集差异很大的测试集上保持与无监督方法相当的泛化性,因为我们可以把变动的机器参数直接手动估计传递给网络,让网络去适应新数据集,如下图
其效果如下:
我个人理解,这个工作其实研究重点都不在于深度学习,更优数学模型的构建。
代码:https://github.com/XieQi2015/MHF-net/tree/master
2)分割任务中的实用:眼底病灶分割网络
针对糖尿病性视网膜病变(DR)分割任务,我们提出了一个基于模型驱动方法的多病变分割网络框架,将视网膜眼底图像的先验知识充分嵌入到了网络结构的设计中。
首先,基于眼底前景(病变)的可分类性和背景(非病变眼底图像)的可字典表示特征,我们提出了前背景分离的眼底图像概率模型。如下图所示:
上图中,图(a)直观地展示了一张眼底图像可以分为前景与背景两部分;图(b)展示了过去的病灶分割网络,即直接以原图作为网络输入;图(c)为我们提出的网络框架,将这一任务解耦为两部分;图(d)与图(e)为使用卷积字典表示模型对背景进行拟合的示意图。对于前景病灶,我们则采用混合高斯进行建模。
在得到眼底图像的概率模型后,可利用期望最大化(EM)算法对模型进行求解,将算法的迭代步逐一展开,生成对应的网络模块,称为Decomposition-Segmentation Network(DS-Net)。网络框架如下图所示:
整个网络框架包括两个子网络:S-Net和D-Net,分别对应EM算法的E步和M步。D-Net的目的是生成干净的眼底背景图,从而完成眼底图像前背景的分离。S-Net则以前景部分作为输入,执行病灶分割任务。相比传统的分割方法而言,DS-Net不仅具有一定的可解释性,且将任务解耦为了两个更容易完成的子任务。通过将去除了背景干扰的前景病灶输入分割网络,获取了更优越的分割性能。部分分割结果的可视化展示如下:
同时,我们也对网络生成的前背景进行了展示:
这一工作正在投稿中,初版论文预印本可在https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4687798查看,后续会进行更新。
相关代码已公开:https://github.com/tanfy929/DS-Net
2)图像去雨网络:RCD-Net
具体内容等我有空继续添加.......
4)复杂模型设计:CT去金属伪影网络
具体内容等我有空继续添加.......
5)生成模型设计:可解释雨图生成网络
具体内容等我有空继续添加.......
6) 非迭代算法的网络化:CT重建中的参数化滤波反投影算法
具体内容等我有空继续添加.......
[1] Xie Q, Zhou M, Zhao Q, et al. Multispectral and hyperspectral image fusion by MS/HS fusion net[C]//CVPR 2019.
[2] Xie Q, Zhou M, Zhao Q, et al. MHF-Net: An interpretable deep network for multispectral and hyperspectral image fusion[J]. TPAMI 2022.