0%

Self-supervised Learning on Graphs: Deep Insights and New Directions

最近想搞一篇关于自监督图学习的工作,之前博客有一篇基于Transformer的。但这个工作太暴力了,效果也非常的好,比肯定很难比得过,所以不可能再去做这个领域(好在它只是做分子数据的)。

Read more »

Transferable Contrasive Network for Generalized Zero-Shot Learning

前言

与半监督图像学习、小样本学习等领域不同的是,零样本学习开始引入一些语义信息,可以理解为同时利用图像与文本信息。在前言部分,我们从零样本学习的定义(what)、具体的用途(why)、以及实际方法(how)来简要介绍该研究领域。此外,我们详细地介绍了一篇CVPR2019广义零样本学习的代表工作。

Read more »

Self-Supervised Graph Transformer on Large-Scale Molecular Data

Abstract

研究分子的表示学习,最近的工作直接使用GNN来进行。然而有两点问题:1.分子标注量不够2.对新合成分子泛化性不够。这篇工作提出了GROVER,graph representation from self-supervised message passing transformer. GROVER设计了node/edge/graph层级的自监督任务,并将message passing network与transformer融合,获得更好的分子编码。GROVER含有一亿参数在千万分子上进行无监督训练,在11个benchmark上达到了平均6%的精度提升。

Read more »

Strong Convexity and Its Generalization

Introduction

The convex condition of the objective function guarantees extrema uniqueness. It says that if $f$ is convex, we can discuss the convergence rate of optimization methods by estimating $||f(w_t)-f^{opt}||$, where $f^{opt}$ is the global maximum/minimum (optimum). Otherwise, we know nothing about the distance and only discuss $\min_{t\in\{0,1,\dots,T\}}||\nabla f(w^t)||^{2}$.

Read more »

Neural Word Embedding as Implicit Matrix Factorization

前言

尽管嵌入模型很明显是基于分布假设来进行优化,使常出现的word-context对向量内积极大化,并极小化随机word-context对内积。但对于这些优化指标的讨论很少,也不清楚为什么这样能够得到期望的结果。这篇文章对此进行了探讨,表明SGNS(skip-gram with negative-sampling)的训练方法实际上是加权矩阵分解,其目标函数在隐式地分解一个移动PMI矩阵,并基于此提出了更高效的优化方式。

Read more »

Secure Aggregation for Federated Learning

引言

本工作由keith等(google)完成发表在2016年nips上。对于联邦学习,隐私性与安全性是首要的,为此可以接受模型性能的轻微下降。Secure Aggregation(以下简称SA)是一类从分布式群体$u \in \mathcal{U}$中获取统计量而不泄露单用户信息$x_{u}$的方法。在这篇文章中,作者提出了用于保护联邦学习中分布式梯度更新的单个用户梯度的协议,这项协议在效率以及稳定性上都做了考虑,在至多三分之一用户未完成协议时仍然能保证安全性。

Read more »

红蜻蜓

“夕阳余晖,淡淡霞光中的红蜻蜓。

童年见到你,那是哪一天?”

人们在我的世界之外喧嚣着,我仍然在深夜的路上,唱着红蜻蜓。

临近毕业,这寂静仿佛延伸了,变成了某种更为深刻的符号,从1998年开始,便代表着我的人生。

Read more »

最优控制理论

Introduction

最优控制解决的是对某个给定的系统寻找其一个满足特定最优标准的控制规律。它是变分法的一个扩展,也是一种得到控制规律的数值最优方法。这一方法大部分由Lev Pontryagin和Richard Bellman发展,最优控制可以视为控制理论中的一个控制策略。一个控制问题包括一个损失泛函,它是状态变量与控制变量的函数。一个最优控制是描述最小化损失泛函控制变量路径的微分方程集合,它可以由Pontryagon极小法则(这是一个必要条件)得到,或者通过求解Hamilton-Jacobi-Bellman方程(充分条件)得到。

Read more »

Adjoint State Method

Abstract

将深度神经网络视为连续动力系统的想法诞生了一类新的深度学习模型,它们拥有着一些独特的性质,在实践性能上也较为优越。需要指出,动力系统的解是以数值形式隐式表达的,通常的反向传播算法并不适用,ASM长久以来被用于此类模型的优化中。

Read more »

Notes on “FFJORD: Free-form Continuous Dynamics for Scable Reversible Generative Models”

Abstract

T. Q. Chen等提出的连续时间可逆生成模型,在算法复杂度、内存效率、实践性能上都表现了很强的竞争力。

Read more »