浙江大学网络与媒体实验室

艺术图像大数据人工智能方向

编辑：cgsoft 发布时间：2019-08-07 访问次数：6584

1.艺术图像大数据人工智能研究：

许端清教授所在研究组，致力于大数据人工智能方法的研究，主要包括以下研究成果：

（1）针对视频和句子这两种模态的数据的语义特征相似度表示与比较的问题，提出利用两个神经网络分支分别把视频和句子编码映射到一个共同的空间里（common space），从而在这个空间计算视频和句子的相似度的方法。对于视频编码分支网络问题，提出空间信息增强的视频表达方法，结合Gated Recurrent Units (GRU)和skip connections来加强对视频空间信息的表达。引入注意力机制（Attention mechanism）让模型重点关注视频中的关键帧，从而避免视频帧之间信息的冗余。对于句子编码分支网络问题，引入多尺度句子编码。多尺度句子编码同时考虑了单词尺度以及句子尺度的信息，让模型自己学习如何组合这些来自不同尺度的信息，从而学习得到一个更好的句子特征编码器。解决方案获得了美国国家标准技术局组织的TRECVID VTT matching and ranking任务的第一名， ICCV2017会议上组织的LSMDC2017 Movie Description国际比赛第二名， LSMDC2017 Movie Annotation and Retrieval国际比赛第二名，并发表相关论文7篇。

（2）研究了Image Translation技术，提出设计Unsupervised Painting Domain Adaptation Network (UPDAN)进行Domain Transfer相关技术，解决了在使用深度神经网络时某类图像样本不足的问题。在WACV’2018发表论文1篇。

（3）研究了计算机视觉问答(VQA, Visual Question Answering)注意力监督问题：提出了利用“人工标记关键位置”引导监督计算机针对指定问题和图像给出准确答案的方法。此方法提高了原有的state-of-art的方法效果、可移植性强，相关论文被人工智能顶级会议AAAI’2018录用发表，论文级别为CCF-A类会议长文。

（4）研究了如何保证模型生成的图像和输入的文本保持“视觉语义”的高度相关性的相关问题，提出将Text-to-Image和Image Caption (Text-to-Image)两个任务相组合的方法。获得成果为：T2I2T: Text to Image synthesizing. CVPR(Under reviewing)

（5）针对如何提高中文的image captioning产生的句子的通顺程度问题，设计了新的损失函数（loss function），让模型产生的句子更加通顺，该损失函数可以应用到其他语言的image captioning中，在多媒体顶级会议Proc. of ACM Multimedia (CCF A会议论文)上发表论文1篇。

（6）文本到图像生成技术的研究。研究了基于对抗生成网络的Text-to-image Generation，根据一句文本描述，去创作一张逼真的自然图片。MirrorGAN创新性地采用了一个Text-to-image-to-text 的框架去约束模型将创作的图片还原成输入的文本，形成了一个跨媒体的循环网络。经过实验，MirrorGAN模型在Text-to-image 领域得到了最新的state-of-the-art结果。研究工作《MirrorGAN: Learning Text-to-image Generation by Redescription》被CCF A类会议CVPR 2019录用。

（7）基于先验知识的文本到图像生成的研究。基于之前的文本到图像的研究基础，提出了在建模文本到图像生成的过程中，模型也可以模拟人类从一句文本出发，再去想象，创造一副图的过程，去将一句话也多方面解码，获得先验知识的编码特征。基于这样先验知识，又提出了基于注意力机制的多阶段生成模型去获得高清的输出图像。

（8）图像再创造研究。利用GAN来做有效地辅助数据扩增任务是现在图像生成领域一个公开的难题。我们仍然面临着扩增的数据集质量差，不高清，不能直接用来当作训练数据等问题。为此，提出了实例级别的数据扩增的方法，即对“输入数据特征抽取”和“新数据再创造”两个重要阶段的建模。在这个首次提出的任务上，模型实现了高质量的图像并且被证明可以被用来辅助数据扩增，远超传统的conditionalGAN的方法的效果。