本文分享了一种在工作中易于操作的知识图谱可视化方法。希望能给您带来帮助。
知识图谱作为语义网络,其技术算法研究被广泛应用在人工智能和大数据等领域。
通常,知识图谱的运转过程是由数据模型完成,用户可见的只是计算后的结果,其数据的可视化也仅停留在对结果的可读性展示上。
但其实,图谱之间的关系、数据计算的过程,也具备分析价值和潜在的机会信息。将知识图谱转化为可视化信息图,能帮助用户更好的理解和利用数据及其关系,但对于没有技术背景的界面设计师来讲,从技术架构、计算函数等技术视角去理解知识图谱概念和应用相对困难。
本文分享一种设计思路,帮助大家在实际工作中,完成知识图谱向可视化交互界面的转化。
一、什么是知识图谱
1. 基本概念
2012年,Google公司为实现更智能的搜索引擎,提出知识图谱的概念,2013年后在行业内和学术界开始普及。
知识图谱的定义:是结构化的语义知识库,本质上是一个语义网络(Semantic Network),用于描述物理世界中的概念及其相互关系。
在技术层面,通过对错综复杂数据的有效加工、处理、整合,转化为数据关系来聚合大量知识,从而实现知识的快速响应和推理;在可视化的应用中,知识图谱表现为多关系图(Multi-relational Graph),在图形化界面中可让用户查看和互动。
2. 知识图谱的特点:
其特点主要包含以下两方面内容:
(1)它是由“节点”和“边”构成的三元组
三元组是知识图谱的基本单位, 由节点和边构成。
其中节点代表实体,是指具有区别性且独立存在的客观事物,如:图1中的马云、华谊兄弟传媒有限公司,图3中的美国、平方公里数等;边代表两个实体间的关系,是指客观存在或推理得到的实体间的联系,如图1中的董事、监视、投资,图3中的面积、人口、首都等。
(2)它的数据以知识的角度呈现
知识是一种人类对于客观世界的认知,包括事实、信息描述或教育实践中获得的结果的综合。
三元组也被称为“一条语句”,或知识图谱中的一条知识。在图4的国家信息关系三元组中,我们就可以读出一条语句(或是知识)为:“中国的土地面积有9,634,057平方公理”。
知识图谱可以集成Web上大量的数据及数据关系,通过有效的加工、整合和处理,将其转化为易于计算和理解的语义知识库,可用于描述客观世界中的概念及相互关系。
3. 知识图谱的作用
- 信息筛选,精确检索范围。
- 信息拓展,提供更丰富的信息内容。
- 信息连接,构建有深度和广度的知识系统。
4. 为什么需要对知识图谱进行可视化
知识图谱的技术架构-侧重在数据关系模型和机器学习,普通用户很难读取和理解。
知识图谱的核心技术逻辑,是由整体的“数据输入-数据处理-知识图谱生成”三个大环节构成。
数据输入环节包含“结构化数据、半结构化数据、非结构化数据”;数据构建环节包含“信息抽取、知识融合、知识加工”;知识图谱系统的生成环节,是整个技术架构往复迭代、不断更新和积累,慢慢形成的结果。数据输入是对数据源的挖掘,数据构建是底层的模型算法应用,知识图谱生成是数据处理结果的呈现。
这个过程在底层数据模型中运转,对用户可见的往往是最终的结果。比如:搜索引擎中,用户看不到搜索过程,但可得到最匹配的搜索结果;在音乐平台中,看不到内容匹配逻辑,但可以被推荐感兴趣的歌曲。如果想利用过程数据为用户提供服务,就需要进行可视化处理。
传统的信息可视化-侧重在数据结果的展示和筛选,较少涉及数据关系的干预。
传统信息可视化的方法,在设计侧更多强调数据信息与图像、色彩的信息传达上。其方法通常集中在“如何对已经确定的数据进行图形映射”和“如何处理信息层级”的视觉表现上,较少参与设计数据关系或影响数据结构。
然而,这让用户知道数据“是什么”,却不能呈现数据“为什么”。知识图谱的可视化,可以让数据处理过程被用户可见、可用,从而更好的分析和使用数据。
知识图谱的可视化-侧重在数据关系构建和处理过程的可视化。
知识图谱技术广泛应用在情报学、检索引擎、自动问答、金融反欺诈等领域。
目前已扩展到智能医疗、证券投资、大数据风控、聊天机器人、个性化推荐系统等更多方向。
这种关系语义网络也逐渐从技术底层应用向可视化用户界面上发展,各行各业也在探索如何时其在终端界面中被用户可读和可用。
比如:在文化研究领域,图谱呈现更有助于用户对于文化知识的理解和再创造;在商品市场领域,视觉化的图谱可让商家洞察更多“人-货-场”之间的内在联系。
对知识图谱信息的可视化,重心落在数据信息的提取和关系构建上,将数据信息的编译过程呈现给用户。知识图谱信息可视化和传统信息可视化方法之间的关系,如图6。
二、知识图谱的可视化设计方法
知识图谱在底层算法和数据模型上提供有效的技术逻辑,进而构建丰富庞大的语义网络,但如果要在具体应用场景中给用户可见的模式,则需要图形化界面的呈现。
在实际工作中,设计侧的核心任务是“多关系图”的信息可视化。结合知识图谱的特征、技术原理和传统信息可视化方法,可以将知识图谱可视化的过程,归纳为“确定知识主题(主题层)-处理与分析数据(数据层)-构建数据三元组(关系层)-进行可视化映射(可视层)”四个步骤。
1. 【主题层】确定知识主题/可视化目标
确定主题的过程,也是定义核心概念或目标的过程,这一环节是是知识图谱可视化的出发点和落脚点。传统可视化为了可视而可视,只是让用户更好的读取数据,而较少考虑读到后有什么用,怎么用。
没有主题的数据是无意义的,任何一类知识的描述,都需要围绕某一特定主题展开。
在项目实践角度,也可以将其视为梳理业务核心诉求或定义设计目标的过程,如确定要阐述什么类型的知识、最终的可视化效果对目标用户有什么价值、业务要利用数据达到什么目的,所有数据的设计都将围绕着主题展开。
确定主题的方法有很多,包括传统的用户需求分析方法、文献综述、行业研究等,可根据不同的项目诉求,选择合适的方法和工具。
如,要做电商行业的知识图谱,通过行业研究、对用户特征和行为动机的分析,发现电商领域用户最关心人货场的知识,人和货特征及其关系就是核心要表达的主题。
再如,老师想了解网络时代的大学生都具备怎样的社交特征,通过对学生学习、娱乐、社交等不同生活要素分类调研,选择“学生使用社交软件的行为特征”作为主题。
同时,主题要清晰明确,避免模糊和过于宏大。以文化领域为例,如想呈现京剧之美,这个概念就大而泛,很难去组织数据,就有创作者将其主题拆分为:历史之美、剧目之美、舞台意向之美、传承之美等几个主题。然后再逐一分析每个主题的数据。
2. 【数据层】对数据进行提取与加工
在未经处理前,与主题相关的可用数据是多样且庞杂的。由知识图谱的技术框架可知,技术模型经过信息提取、知识融合和知识加工后,才使原始数据变得有用和有效,同样在可视化的过程中,也离不开信息提取与数据加工。
(1)数据提取-围绕知识主题进行数据信息的提取
信息提取,也就是先罗列可能有用的相关数据类型。每个主题都是一大类目的知识领域,需要经过收集、归纳、拆解后再能够清晰的进行解释和传播。
如,围绕“学生使用社交软件的行为特征”这一主题,可归纳出“好友关系、互动行为、在线状态、信息发布”等特征。
进一步,好友关系又可拆分为:好友量、关注量、粉丝量;互动行为又可拆分为:聊天次数/频率、点赞数、评论数等。
数据收集一般通过桌面研究的手工收集、数据爬虫两种方式。归纳和拆解数据可以使用卡片分类、思维导图的方式。
(2)数据加工-进行知识语义加工
数据加工的过程,就是将罗列出的数据进行分类和筛选,确定最能够表现知识主题的描述纬度或数据类型。
通过分析影响因素的关联程度,选择具备直接影响因素的数据,或划定数据范围后,再进行细分。
可以利用卡诺模型、波士顿矩阵等方法找到数据对主题影响程度的优先级,具体的挑选方法无定式,只要能整理出适合的数据类型。
(3)数据清洗-进行数据筛选和最终确认
定义出有用的数据类型后,并不是所有数据都能完美符合我们的诉求,比如数据挖掘能力限制,不能挖到更精准的数据或有数据缺失;比如数据解析能力不足,数据类型混杂,或有错误数据等。
排除不足量、精准度差、错误率高等不可用的数据,盘点出能够被应用于可视化的最终数据。
在实际工作中,需要跟团队的数据挖掘工程师、或业务产品负责人明确数据能力和质量。
例如,“京剧传承之美”的数据选择过程中,作者对京剧艺术传承上存在的“流派师承、艺学家传、科班教育等”多种方式进行进行分类和筛选,最终提取了京剧51个流派的创始人数据、师徒数据、家族成员数据。
3. 【关系层】构建数据关系三元组
在知识图谱的技术架构中,这一环节体现在本体构建上,本体是个专业概念,本体构建也有多种可用的成熟模型,属于技术侧内容,本文不展开论述,仅阐述设计层面的思路。技术是让数据更精准,而面向用户的设计是让数据更有用和好用。
设计数据的关系层,也就是给不同数据类型建立关系的过程,通过确定节点和边的内容来构建能够解释主题和符合其逻辑关系的三元组。
数据关系的建立一般主要围绕两个层面,一是能够阐述知识主题,二是通过关系三元组可推理得到更多的知识内容。
比如,在“学生使用社交软件的行为特征”这个主题中,可定义“学生(实体)-网络社交特征(属性)-具体行为(属性值)“是一组关系结构,体现在数据为“张三-在线时长-5小时/天”,描述成知识语意为:张三同学社交软件每天会在线亮起5个小时;
又如,围绕“商品销售信息”这一主题,“产品(实体)-集合(关系)-商品(实体)”是一组关系结构,体现在具体数据为“手机-包含-华为手机”,描述成知识语义为:华为手机是众多手机中的一种。
当我们定义了这种数据关系,独立的数据就变成了可描述的知识语意,当这些语义联系在一起,用户通过一段段知识洞察到不同的现象,或解读出不同的结论。
这种知识语义的可视化,或者说这种数据关系结构的可视化,能够帮助用户了解业务现象,或产品底层看不到但却有用的信息。
比如京剧文化中师承的演变,可以通过不同人物之间的关系脉络,构建出“师承关系、家族关系、联姻关系”几种三元组模式,从相同节点中解读到某个京剧演员擅长某个角色的师承因素。
再比如,将某班级每个学生的聊天频率、好友数量、QQ在线时长等网络社交行为关系一一对应,就会勾画出集中在某个学生身上的不同特征,把这些学生再放在一起,就呈现出一个班级学生在网络世界的不同社交特点。
4. 【可视层】可视化图形语义转换/可视化映射
当关系构建好以后,简单的三元组是容易读取的,但众多三元组集成在一起,也会涉及到信息读取效率的问题,就需要将关系结构图形化,这一步骤也是传统信息可视化方法中的必然环节。
根据已经构建好的数据关系结构,可通过“图表映射”和“视图设计”两种方式,进行可视化的语义转换。
(1)可视化图表映射
可视化图表,是指具备通用性的标准化图表。总体分为统计类图表和关系类图表,本文主要阐述关系类图表。关系类图表又可分为网状关系和层次关系。
网状关系图包括:关系图、弦图、弧长链接图等;层次关系图包括:树图、旭日图、矩形树图等。详细的标准化图表,可以借助E-chart、Tableau Public、Smartbi等软件进行参考选择(如图9)。
如果数据关系比较清晰简单,能够被这两类标准化图表所覆盖,则可以直接选择把节点和关系直接映射其中。如果你的数据关系比较复杂,或个性化,则可对标准化图标进行组合或变化,或设计个性化视图。
例如,在北京邮电大学彭国雁的论文《面向京剧知识图谱的信息可视化研究与设计》的案例中,“京剧传承之美”这一主题,“师承关系、家族关系、联姻关系”的三元组关系较复杂,如果直接用可视化图表映射来展示,会产生易读性差和页面布局难以控制的问题。
于是论文作者采用不同图表相结合的方式,并将图形的视觉元素进行改造:
- 主体采用和弦图,人物点构成和弦图的圆,人物关系类别采用不同颜色线条进行连接。
- 根据人物出生时间的向性特点,将人物按照某一方向进行排列,即可隐喻师徒或者亲属关系的有向性。
- 采用树形图形式的线条表达主次人物的关系。
- 将几种基础关系做好映射后,再把相关节点整合在一起,就表达了整体的师承关系结构图,最终形成“传承之美”整体的可视化知识图谱。
(2)可视化视图设计
本文所述的可视化视图,是指能表达标准化图表以外的,不同类型数据特征的语义图形,由设计师根据与主题相关的数据类型进行构思,并关联其不同类型数据间的关系语境,最终形成的信息图。
清华大学副教授向帆老师在对“学生互联网社交行为”这一主题的研究中,作者选择QQ使用状态的相关数据,将每个学生用QQ企鹅的轮廓图形表示,在线时长为企鹅形状大小、聊天次数为圆形嘴巴、好友数量为头发多少,呈现出“学生-网络社交特征-具体行为”的可视化关系图,在最终的视图中,可直观的看到完全不同的每个人。
这类自定义的可视化视图具有独特性和意向性的特征。独特性是指图形针对具体的主题和数据关系,而不能够广泛的为其他主题复用;意向性是指一个视图内的图形有一定的意向概念传达,比如圆形代表聊天次数,也是象征嘴巴,嘴巴跟聊天相关(尽管网络聊天用文字,但却表达出了这种交流意向)。
同时个性化图形元素相关联来表达数据关系,也可以直观、高效的洞察出用单纯的标准化图表看不到的现象,比如三个学生,一个在线时间很长但聊天很少、好友也很少;一个在线时间很短,但好友和交流时间却很多;另一个基本不说话,但是却有很多好朋友。这样的现象更容易触发同理心,从而启发老师在教学中因材施教。
经过以上四个步骤,就完成了对知识图谱数据进行可视化。它不是单纯的以视觉效果展示数据信息,而是从数据关系提取到关系呈现为一体的设计过程。
三、结语
综上所述,基于知识图谱的技术架构、传统数据可视化的方法和交互设计的工作流程,本文分享了一种可在工作中易于操作的知识图谱可视化方法。
与传统数据信息可视化相比,知识图谱可视化更倾向于数据之间三元组关系的视觉表达,所谓“整体大于局部之和”,有了关系的建立,则更能够发现单一数据之外的延展信息和潜在机会。希望能够通过设计的力量,让普通用户也能更好的使用数据和洞察数据。