今日 Paper | 虚假新闻检测；马尔可夫决策过程；场景文本识别；博弈论框架等

2013 年 10 月 14 日

为了帮助各位学术青年更好地学习前沿研究成果和技术，AI科技评论联合Paper 研习社（paper.yanxishe.com），重磅推出【今日 Paper】栏目，每天都为你精选关于人工智能的前沿学术论文供你学习参考。以下是今日的精选内容——

Weak Supervision for Fake News Detection via Reinforcement Learning
Unsupervised Detection of Sub-events in Large Scale Disasters
Quantum Logic Gate Synthesis as a Markov Decision Process
Deep neural network models for computational histopathology: A survey
Recognizing Instagram Filtered Images with Feature De-stylization
TextScanner: Reading Characters in Order for Robust Scene Text Recognition
Ordered Reliability Bits Guessing Random Additive Noise Decoding
Publishing computational research — A review of infrastructures for reproducible and transparent scholarly communication
Let’s Share: A Game-Theoretic Framework for Resource Sharing in Mobile Edge Clouds

基于强化学习的虚假新闻检测弱监督

论文名称：Weak Supervision for Fake News Detection via Reinforcement Learning

作者：Wang Yaqing /Yang Weifeng /Ma Fenglong /Xu Jin /Zhong Bin /Deng Qiang /Gao Jing

发表时间：2019/12/28

论文链接： https://paper.yanxishe.com/review/7954

推荐理由：这篇论文被AAAI 2020接收，考虑的是虚假新闻检测的问题。

通过社交媒体平台，虚假新闻可以以前所未有的速度进行传播。最近基于深度学习的方法在虚假新闻检测任务中取得了令人欣喜的性能表现，但是训练此类模型需要大量标注数据，同时由于新闻的动态性质，带标注的样本可能会很快过时，无法代表新出现事件的新闻报道。因此如何获得新鲜且高质量的标注样本是将深度学习模型用于虚假新闻检测的主要挑战。为了解决这个问题，这篇论文提出了一个基于强化学习的弱监督虚假新闻检测算法WeFEND，该框架利用用户报告作为弱监督数据，从而扩大了训练数据的规模。WeFEND主要由标注模块，强化选择模块和虚假新闻检测模块构成。其中标注模块可以根据用户的报告为未标注的新闻自动分配弱标签，基于强化学习的强化选择模块从弱标注数据中选择高质量的样本，并过滤掉那些可能降低检测器预测性能的低质量样本，虚假新闻检测模块则专注于根据新闻内容识别假新闻。文章在微信官方账户发布的大量新闻文章和相关的用户报告上测试了其提出的WeFEND，实验结果表明，与最新的方法相比，WeFEND模型具有最佳的性能表现。

大规模灾害中子事件的无监督检测

论文名称：Unsupervised Detection of Sub-events in Large Scale Disasters

作者：Arachie Chidubem /Gaur Manas /Anzaroot Sam /Groves William /Zhang Ke /Jaimes Alejandro

发表时间：2019/12/13

论文链接： https://paper.yanxishe.com/review/7955

推荐理由：在自然灾害（例如飓风，大型火灾）发生期间及之后，社交媒体往往扮演重要角色，因为人们在社交媒体上提供了有关实情的有用信息。给定大量的用户发帖，难点是如何从中得到可靠而重要的信息，以便急救人员可以及时计划和部署资源。这篇论文要解决的正是自动识别重要子事件的问题（这些子事件存在于大规模紧急事件中，例如飓风）。具体而言，研究者提出一种新的无监督学习框架，可以检测推文中的子事件，以进行回顾性危机分析。这个框架首先从原始推文中抽取动名词对和短语作为子事件的候选，然后从抽取到的词对和短语上学习一个语义嵌入，并与一个危机专用谱系对比进行关联度排序。接着过滤掉噪音和不正确的信息，然后将动名词对和短语进行聚类，使得排在前面的候选是描述最重要子事件的。通过在Hurricane Harvey和2015 Nepal Earthquake这两个真实数据集上的实验证明了这篇论文提出的框架取得了最佳性能。

量子逻辑门综合作为马尔可夫决策过程

论文名称：Quantum Logic Gate Synthesis as a Markov Decision Process

作者：Alam M. Sohaib

发表时间：2019/12/27

论文链接： https://paper.yanxishe.com/review/7949

推荐理由：强化学习见证了量子编程中各种任务的最新应用。基本假设是，这些任务可以建模为马尔可夫决策过程（MDP）。

本文中，作者通过探索该假设对量子编程中两个最简单的任务的影响来研究该假设的可行性：状态准备和门编译。通过形成离散的MDP，仅专注于单量子位的情况，就可以通过策略迭代来精确求解最优策略。作者找到了与门的最短可能序列相对应的最佳路径，以准备状态或编译门，达到某种目标精度。例如，作者发现长度为11的H和T门的序列对于（HT）^ {n} | 0>形式的状态产生约99％的保真度，其值最大为n = 10 ^ {10}。。这项工作提供了有力的证据，说明强化学习可以用于较大的量子位空间的最佳状态准备和门编译。

用于计算组织病理学的深度神经网络模型：一项调查

论文名称：Deep neural network models for computational histopathology: A survey

作者：Srinidhi Chetan L. /Ciga Ozan /Martel Anne L.

发表时间：2019/12/28

论文链接： https://paper.yanxishe.com/review/7950

推荐理由：组织病理学图像包含丰富的表型信息，可用于监测促成疾病进展和患者生存结果的潜在机制。

最近，深度学习已成为分析和解释癌症组织学图像的主流方法论选择。在本文中，作者对组织病理学图像分析中使用的最新深度学习方法进行了全面回顾。通过对130余篇论文的调查，作者根据不同机器学习策略的方法论方面（例如有监督，弱监督，无监督，迁移学习和这些方法的其他子变量）回顾了领域的进展。作者还概述了适用于特定疾病的预后任务的基于深度学习的生存模型。最后，其总结了几个现有的开放数据集，并重点介绍了当前深度学习方法的关键挑战和局限性以及未来研究的可能途径。

利用特征去样式化识别Instagram过滤图像

论文名称：Recognizing Instagram Filtered Images with Feature De-stylization

作者：Wu Zhe /Wu Zuxuan /Singh Bharat /Davis Larry S.

发表时间：2019/12/30

论文链接： https://paper.yanxishe.com/review/7953

推荐理由：这篇论文被AAAI 2020接收，考虑的是深度神经网络模型对于照片滤镜的鲁棒能力。

这篇论文研究一些著名的预训练模型是如何被Instagram自带滤镜影响的，进而引入一个ImageNet的带滤镜数据集ImageNet-Instagram，其中对每一张ImageNet图像使用了20种有名的Instagram滤镜。研究发现，那些简单保留结构的滤镜，例如仅仅只对一幅图的整体作修饰，能导致卷积特征空间极大的不同。为提高模型的泛化能力，研究者引入一种轻量级去风格化（de-stylization）模块，该模块能预测用于变粒度或特征转换的参数，以撤销被滤镜处理过的图像。研究者进一步证明所提模块能插入CNN结构。在所构建的新数据集上的对比实验表明了所提模块的有效性。

TextScanner：读取字符以实现健壮的场景文本识别

论文名称：TextScanner: Reading Characters in Order for Robust Scene Text Recognition

作者：Wan Zhaoyi /He Mingling /Chen Haoran /Bai Xiang /Yao Cong

发表时间：2019/12/28

论文链接： https://paper.yanxishe.com/review/7951

推荐理由：这是旷视研究院的工作，要解决场景文本识别的问题。

在场景文字识别问题上，基于RNN注意力的方法在该领域占主导地位，但这些方法在某些情况下会存在注意力漂移问题。最近基于语义分割的算法已被证明可以有效地识别不同形式（水平方向、其他方向或者弯曲）的文本，但是这些方法可能会产生虚假字符或遗漏真实字符。为了解决这些问题，这篇论文提出了一个新方法TextScanner，其主要有以下三个特征：1、它针对字符类、位置和顺序生成了像素级的多通道分割图；2、它也采用RNN进行上下文建模；3、此外它对字符位置和类别进行并行预测，并确保以正确的顺序转录字符。在标准基准数据集上进行的实验表明，TextScanner的性能优于最新方法，而且TextScanner在识别较困难的文本（例如中文成绩单）方面显示出巨大优势。

猜测随机加性噪声解码的有序可靠性比特

论文名称：Ordered Reliability Bits Guessing Random Additive Noise Decoding

作者：Duffy Ken R.

发表时间：2020/1/2

论文链接： https://paper.yanxishe.com/review/7960

推荐理由：猜测随机加性噪声解码（GRAND）可以解码任何前向纠错块代码。原始算法假设解码器仅接收经过解调的硬判决，以告知其解码。由于已知合并软信息可提高解码精度，因此作者在此引入有序可靠性位GRAND，即对于长度为n的二进制块代码，其不超过与代码本无关的⌈log2（n）⌉位的量化每个接收位的软检测信息，以确定准确的解码。

事实证明，ORBGRAND具有比CA-SCL（一种最新的CA-Polar解码器）更好的块错误率性能，并且复杂度低。用ORBGRAND解码的相同速率的随机线性代码显示出可比的块错误和复杂性性能。

发布计算研究-审查可重复且透明的学术交流的基础架构

论文名称：Publishing computational research — A review of infrastructures for reproducible and transparent scholarly communication

作者：Konkol Markus /Nüst Daniel /Goulier Laura

发表时间：2020/1/2

论文链接： https://paper.yanxishe.com/review/7961

推荐理由：资助机构越来越多地要求申请人将数据和软件管理计划纳入提案中。此外，科学期刊和会议的作者指南通常包含有关数据可用性的声明，并且一些审稿人拒绝不可重复的提交。开放科学的趋势增加了作者的压力，要求他们提供访问其科学论文中计算结果基础的源代码和数据的权限。尽管如此，发布可复制的文章仍然是一项艰巨的任务，而不能仅通过提供对代码脚本和数据文件的访问来实现。因此，一些项目开发了解决方案，以支持可执行分析的发布以及考虑了上述利益相关者需求的文章。

本文的主要贡献是对应用程序的综述，该应用程序解决了发布可执行的计算研究结果的问题。作者比较了与所涉利益相关者相关的属性之间的方法，例如提供的功能和部署选项，还严格讨论了趋势和局限性。审查可以支持出版商决定将哪种系统集成到其提交过程中，编辑可以为研究人员推荐工具，以及科学论文的作者遵循可重复性原则。

让我们分享：移动边缘云中资源共享的博弈论框架

论文名称：Let’s Share: A Game-Theoretic Framework for Resource Sharing in Mobile Edge Clouds

作者：Zafari Faheem /Leung Kin K. /Towsley Don /Basu Prithwish /Swami Ananthram /Li Jian

发表时间：2020/1/2

论文链接： https://paper.yanxishe.com/review/7959

推荐理由：移动边缘计算试图为不同的延迟敏感型应用程序提供资源。因为边缘云服务提供商可能没有足够的资源来满足所有资源请求，所以这是一个具有挑战性的问题。此外，将可用资源最佳地分配给不同的应用程序也具有挑战性。不同边缘云服务提供商之间的资源共享可以解决上述限制，因为某些服务提供商可能拥有可被其他服务提供商“租用”的可用资源。但是，边缘云服务提供商可以有不同的目标或\ emph {utilities}。因此，需要一种有效且有效的机制来在服务提供商之间共享资源，同时考虑各种提供商的不同目标。

本文中作者将资源共享建模为一个多目标优化问题，并提出了基于\ emph {合作博弈论}（CGT）的解决方案框架。作者考虑以下策略：每个服务提供商首先将资源分配给其本机应用程序，然后与其他服务提供商的应用程序共享剩余的资源。我们证明，对于单调，不递减的效用函数，该博弈是规范的和凸的。因此，\ emph {core}不为空，大联盟稳定。我们提出两种算法\ emph {博弈论的帕累托最优分配}（GPOA）和\ emph {基于一夫多妻制的帕累托最优分配}（PPMPOA），它们从核心提供分配。因此，所获得的分配是\ emph {Pareto}最优的，并且所有服务提供商的总体联盟都是稳定的。

实验结果证实，作者提出的资源共享框架提高了边缘云服务提供商的实用程序和应用程序请求的满意度。