从产品+技术层次角度，看今日头条的数据挖掘

今日头条的数据挖掘虽然可以精准的推荐我们所喜欢的内容，但同时也像精神鸦片一样令人上瘾。由于某一些不可抗拒的力量，让今日头条的产品在海外受阻，同时还有其他的企业。但是，我们对于这些力量看看就好。

从产品+技术层次角度，看今日头条的数据挖掘
本文将从两个角度即：产品+技术的层面来看看今日头条和抖音，让我们对今日头条的产品有个了解。

当然仅限我个人在有限的资料以及认知层面，进行浅显的分析，首先我们需要知道两款产品都有着相似的一点，就是好玩同时能够让每个人（全世界）都喜欢。

抖音表现出一款好的产品是能够让所有人都能够完全的自由创作，记录每个人的生活。

在开始之前我们需要对于抖音和今日头条的数据有个大致了解，以下两组数据记录了抖音和头条的发展历史。

今日头条：一款基于数据挖掘的推荐引擎产品。

截至2015年12月，今日头条累计拥有激活用户3.5亿，日活跃度超过3500万。

其中，“头条号”平台的账号数量已超过4.1万个，各类媒体、政府、机构总计超过11000家；签约合作的传统媒体过千家，“头条号”自媒体其账号总数超过3万个。

抖音：技术层面一样的搜索引擎。

自2016年9月于今日头条孵化上线，定位为适合中国年轻人的音乐短视频社区，应用为垂直音乐的UGC短视频，2017年以来获得用户规模快速增长。

抖音国际版TikTok的下载和安装量曾在美国市场跃居第一位，并在日本、泰国、印尼、德国、法国和俄罗斯等地，多次登上当地App Store或Google Play总榜的首位。

据抖音产品负责人王晓蔚2017年9月2日表示：“85%的抖音用户在24岁以下，主力达人和用户基本都是95后甚至00后。截至2018年10月，该应用程序已被150多个国家的超过8亿全球用户下载。”

2020年5月份Sensor Tower的最新数据显示，“抖音”及海外“TikTok”，目前在全球App Store和Google Play应用程式商店的总下载次数已突破20亿次。

这两组数据说明了抖音和今日头条的受欢迎程度，好的产品表现出良好的数据以及用户增长，让我们产品经理有个学习的榜样。

接着我们从产品层面来看抖音和今日头条，主要将两者相同的部分进行分析。

一、上瘾快乐的源泉

今日头条在刚推出的时候，将每一个新闻尽可能的推荐给适合他的人；同样的技术应用到抖音上面，就会出现同样的效果。

如果今日头条的算法成功的体现，那么我们就可以看看抖音效果，今日头条的试水产品让自己的抖音成为全世界最受欢迎的短视频社交产品。

不管是抖音还是今日头条，每个用户都能刷到自己喜欢的内容，没有自己不喜欢的内容。

如果上班使用微信或者是QQ进行沟通交流，每个人处于一种压力状态下面；抖音则正好相反，每个人没有工作的烦恼以及压力，在休息或者下班时间都会打开抖音或者今日头条，在一种无压力下状况下进行放松娱乐。

我们都知道快乐是好的，都喜欢快乐的感觉，同时上瘾的快乐还是好的吗？

当我们一味的追求在抖音上面的快乐，消耗自己的注意力，就像我们想要着急完成工作，然后打开抖音在上面看短视频。我们基于逃避，着急逃避那个带着压力的工作环境，同样的简单的逃离会加深我们的这种感觉。

这种感觉会在每时每刻都在，每天加深一遍，也可以说是每天都会重复这种感觉。唯一的办法就是渐渐的放下抖音或者是今日头条，降低对这款产品的依赖程度，减少使用抖音的次数以及时间。

二、广而告之

我们都知道当下流行的就是，有任何的事情找记者，不再是以前的出事找警察叔叔，为什么一个简单的舆论新闻能够引起这么大的反响。

首先我们要感谢在这个信息发达的社会和国家，信息发达到让我们能够知道谁家的猫丢了，警察全城找，然后上了热搜。这要感谢背后的粉丝，还是粉丝力量大。

今日头条和抖音做为媒体平台，对于上面的内容能够审核和把控，一部分因素来源是政策。

如果全部开放，像海外市场那种，那么它也将会面临一系列监管问题。在国内的抖音更多是娱乐性质，同时在上面你不能发表对应的个人自由言论，所以我们看到的是生活，记录这些不一样的生活。

关于言论部分我们不进行过多进行讨论，我们继续会到抖音做为媒体的产品背后所包含的舆论部分。

不知我们有没有发现，舆论的热点一旦发酵，首先考虑的是礼仪和道德；不管法律多么的严厉，都会涉及到一些礼仪和道德。

当然，每个人的道德观念不一样，但是大众的道德观念会让所有人跟着一起走，大白话就是符合群体大众的道德观念，而不是个体的观念。如果单个个体持有不同的道德观念，那么这个热点的舆论事件你就参与不了。

三、数据挖掘

每个成熟的产品离不开技术的支持，技术和科研不同是，技术是需要创造价值，而科研是无价值的研究，今日头条和抖音背后的技术数据挖掘下面会介绍

1. 数据挖掘

是一个跨学科的计算机科学分支。涉及人工智能、机器学习、统计学、和数据库的交叉方法在相对大型的数据集（data set）发现模式的计算过程。

数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

除了原始分析步骤，它还涉及到数据库和数据管理方面、数据预处理（英语：data pre-processing）、模型与推断方面考量、兴趣度度量、复杂度的考虑，以及发现结构、可视化及在线更新等后处理本质上属于机器学习的范畴。

类似词语“数据捕捞（data dredging）”、“数据捕鱼”和“数据探测”，指用数据挖掘方法来采样（可能）过小以致无法可靠地统计推断出所发现任何模式的有效性的更大总体数据集的部分，不过这些方法可以建立新的假设来检验更大数据总体。

2. 历史

资料探勘是因为海量有用资料快速增长的产物。

使用计算机进行历史资料分析，1960年代数字方式采集资料已经实现；1980年代，关系数据库随著能够适应动态按需分析资料的结构化查询语言发展起来，数据仓库开始用来存储大量的资料。

因为面临处理资料库中大量资料的挑战，于是资料探勘应运而生。对于这些问题，它的主要方法是资料统计分析和人工智能搜索技术。

3. 定义

资料有以下这些不同的定义：

“从资料中提取出隐含的过去未知的有价值的潜在信息”；

“一门从大量资料或者资料库中提取有用信息的科学”。

尽管通常资料探勘应用于资料分析，但是像人工智能一样，它也是一个具有丰富含义的词汇，可用于不同的领域。

它与KDD（Knowledge discovery in databases）的关系是：KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程；而数据挖掘是KDD通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。

事实上，在现今的文献中，这两个术语经常不加区分的使用。

4. 本质

数据挖掘本质上属于机器学习的内容。

例如：《数据挖掘：实用机器学习技术及Java实现》一书大部分是机器学习的内容，这本书最初只叫做“实用机器学习”，“数据挖掘”一词是后来为了营销才加入的。

通常情况下，使用更为正式的术语，（大规模）数据分析和分析学，或者指出实际的研究方法（例如人工智能和机器学习）会更准确一些。

5. 过程

数据挖掘的实际工作是对大规模数据进行自动或半自动的分析，以提取过去未知的有价值的潜在信息。例如：数据的分组（通过聚类分析）、数据的异常记录（通过异常检测）和数据之间的关系（通过关联式规则挖掘）。

这通常涉及到数据库技术，例如空间索引（英语：spatial index）。这些潜在信息可通过对输入数据处理之后的总结来呈现，之后可以用于进一步分析，比如机器学习和预测分析。

举个例子：进行数据挖掘操作时可能要把数据分成多组，然后可以使用决策支持系统以获得更加精确的预测结果。

不过数据收集、数据预处理、结果解释和撰写报告都不算数据挖掘的步骤，但它们确实属于“资料库知识发现”（KDD）过程，只不过是一些额外的环节。

数据库知识发现（KDD）过程通常定义为以下阶段：

选择
预处理
变换
数据挖掘
解释/评估

1）预处理

在运用数据挖掘算法之前，必须收集目标数据集。

由于数据挖掘只能发现实际存在于数据中的模式，目标数据集必须大到足以包含这些模式，而其余的足够简洁以在一个可接受的时间范围内挖掘，常见的数据源如资料超市或资料仓储。

在数据挖掘之前，有必要预处理来分析多变量数据，然后要清理目标集，数据清理移除包含噪声和含有缺失数据的观测量。

2）数据挖掘

数据挖掘涉及六类常见的任务：

异常检测（异常/变化/偏差检测）：识别不寻常的数据记录，错误数据需要进一步调查；
关联规则学习（依赖建模）：搜索变量之间的关系。例如：一个超市可能会收集顾客购买习惯的数据，运用关联规则学习，超市可以确定哪些产品经常一起买，并利用这些信息帮助营销——这有时被称为市场购物篮分析；
聚类：是在未知数据的结构下，发现数据的类别与结构；
分类：是对新的数据推广已知的结构的任务。例如：一个电子邮件程序可能试图将一个电子邮件分类为“合法的”或“垃圾邮件”；
回归：试图找到能够以最小误差对该数据建模的函数；
汇总（Automatic summarization）：提供了一个更紧凑的数据集表示，包括生成可视化和报表。

3）结果验证

数据挖掘的价值一般带着一定的目的，而这目的是否得到实现一般可以通过结果验证来实现。

验证是指“通过提供客观证据对规定要求已得到满足的认定”，而这个“认定”活动的策划、实施和完成，与“规定要求”的内容紧密相关。

数据挖掘过程中的数据验证的“规定要求”的设定，往往与数据挖掘要达到的基本目标、过程目标和最终目标有关。

验证的结果可能是“规定要求”得到完全满足或者完全没有得到满足，以及其他介于两者之间的满足程度的状况。验证可以由数据挖掘的人自己完成，也可以通过其他人参与或完全通过他人的项目，以与数据挖掘者毫无关联的方式进行验证。

一般验证过程中，数据挖掘者是不可能不参与的，但对于认定过程中的客观证据的收集、认定的评估等过程如果通过与验证提出者无关的人来实现，往往更具有客观性。

通过结果验证，数据挖掘者可以得到对自己所挖掘的数据价值高低的评估。

数据挖掘的方法包括监督式学习、非监督式学习、半监督学习、增强学习。监督式学习包括：分类、估计、预测。非监督式学习包括：聚类，关联规则分析。

6. 例子

数据挖掘在零售行业中的应用：零售公司跟踪客户的购买情况，发现某个客户购买了大量的真丝衬衣，这时资料探勘系统就在此客户和真丝衬衣之间建立关联。

销售部门就会看到此信息，直接发送真丝衬衣的当前行情，以及所有关于真丝衬衫的资料发给该客户。这样零售商店通过资料探勘系统就发现了以前未知的关于客户的新信息，并且扩大经营范围。

7. 数据捕捞

通常作为与资料仓库和分析相关的技术，资料探勘处于它们的中间。

然而有时还会出现十分可笑的应用，例如发掘出不存在但看起来振奋人心的模式（特别的因果关系），这些根本不相关的、甚至引人误入歧途的、或是毫无价值的关联，在统计学文献里通常被戏称为“资料挖泥”（Data dredging, data fishing, or data snooping）。

资料探勘意味著扫瞄可能存在任何关系的资料，然后筛选出符合的模式，（也叫“过度匹配模式”）。大量的数据集中总会有碰巧或特定的资料，有著“令人振奋的关系”。

因此，一些结论看上去十分令人怀疑。尽管如此，一些探索性资料分析还是需要应用统计分析寻找资料，所以好的统计方法和数据资料的界限并不是很清晰。

危险是出现根本不存在的关联性，投资分析家似乎最容易犯这种错误。

在一本叫做《顾客的游艇在哪里？》的书中写道：

“总是有相当数量的可怜人，忙于从上千次的赌轮盘的轮子上寻找可能的重复模式。十分不幸的是，他们通常会找到。”

多数的资料研究都关注于发现大量的资料集中，一个高度详细的模式。

在《大忙人的资料探勘》一书中，西弗吉尼亚大学和不列颠哥伦比亚大学研究者讨论了一个交替模式，用来发现一个资料集当中两个元素的最小区别，它的目标是发现一个更简单的模式来描述相关数据。

参考资料：维基百科

{{userData.name}}已认证