本文共 1391 字,大约阅读时间需要 4 分钟。
本节书摘来自华章出版社《异构信息网络挖掘: 原理和方法(1)》一书中的第1章,作者[美]孙艺洲(Yizhou Sun)韩家炜(Jiawei Han),更多章节内容可以访问云栖社区“华章计算机”公众号查看
我们生活在一个相互连接的世界中。大量的数据或信息化对象、个体、群组或其组成部件之间相互联系、相互影响,形成了数量众多、规模庞大、相互连接的复杂网络。不失一般性,本书称这种相互连接的网络为信息网络(information network)。信息网络的实例包括社交网络、万维网、研究成果发表网络[22]、生物网络[55]、交通网络[32]、公共健康系统、电网,等等。显然,信息网络随处可见,是现代信息基础设施的重要组成部分。如今,对信息网络或某些特殊类型信息网络(如社交网络和万维网)的分析,已经受到计算机科学、社会科学、物理、经济学、生物学等领域研究者的广泛关注,并在各个学科中获得了令人激动的发现和成功的应用。
当前大多数关于网络科学、社交和信息网络的研究,通常假设网络是同构的(homogeneous),即网络中的节点都是相同实体类型的对象(如人),并且链接都是相同关联类型的关系(如朋友关系)。这些研究获得了许多有趣的结果以及众多有重要影响的应用,例如知名的PageRank算法[10]和社区探测方法等。然而,实际中大多数网络是异构的(heterogeneous),即网络中的节点和关系并不是相同类型的。例如,在一个医疗保健网络中,节点可以是病人、医生、检查、疾病、药物、医院、治疗,等等。如果将所有节点视为同一类型可能会丢失重要的语义信息。另一方面,如果将每一个节点都作为一个单独的类型同样会遗失有价值的信息。相比于医生或者疾病这些类型,我们可以把所有病人看成同一个类型。因此,类型化、半结构化的异构网络建模可以捕获真实世界中最根本的语义信息。类型化的、半结构化的异构信息网络无所不在。例如,Facebook网络由用户以及照片、消息、公司、电影等多种类型对象组成。除了人与人之间的朋友关系,还存在着其他类型的关系,如个人与照片之间的标记关系、个人与电影之间的喜好关系、个人与消息之间的发布关系、消息与消息之间的回复关系等。一个大学网络也可由不同类型的对象(如学生、教授、课程、院系),以及这些对象之间的交互(如教学、课程注册或所属院系等关系)构成。从社交媒体到各种科学性、工程性或者医疗性的系统,再到在线电子商务系统,这样的例子比比皆是。因此,异构信息网络是对真实世界各领域中不同类型的网络实体间相互关系的强大且丰富的表达。在本书中,通过借助网络中节点与链接的类型的语义,我们探讨了异构信息网络挖掘的原理和方法,并且提出了能够探究这些丰富语义并解决现实世界问题的模型与算法。通常,异构信息网络包含着同构网络中的语义结构。异构网络中的链接代表网络中不同类型对象之间的相互关系,一般包含着这些对象之间的相似性或者影响力,这些都很难用传统的特征来表达。信息在网络中通过不同类型的关系(即异构链接)在不同的对象之间传播。这些信息具有不同的语义,并且确定了连接对象间影响力的强度。这些原理为处理异构信息网络中各种挖掘任务(包括排名、聚类、分类、相似性搜索、关系预测和关系强度学习等)的方法学研究奠定了基础。我们将分章节介绍这些挖掘任务和与它们相关的新的原理及方法。
转载地址:http://ijypo.baihongyu.com/