书城经济一本书读懂大数据
14928800000031

第31章 大数据时代的个人数据管理(1)

做好个人大数据管理

今天,如果你开始关注某一领域,想对某一种知识进行积累,在开始养数据的过程里,你会如何开始呢?这就是一个棘手的问题。没有人能够在第一次做运营数据的时候,就知道这个数据是好的,是对自己有用的,或者,什么数据是不好的,是对自己没用的。就像开始做企业大数据时,他们根本不知道哪些数据一定有利,或者在未来可能对自己产生重要的价值。所以,你可能一开始会把每天关注的那些数据收集回来,这可以方便你做数据管理。

瑞斯是一家电商的负责人,时至今日,在瑞斯积累的数据中,已经有超过上万篇关于他过去经验的PPT及早上收集的电商新闻,如果瑞斯没有一个非常好的分类和标签管理体系,瑞斯就不可能做到这一点。

所以,要完成这个大数据积累的闭环,要求放进去的数据,一定要能够非常快速、实时地调用出来。瑞斯一直在训练自己怎么使用两个关键词就能够在10秒钟内调出自己积累的有效数据。

当瑞斯想要使用数据做决策时,有效的数据就在手边,这个时候运营数据,即养数据,已经产生了作用。

现在,瑞斯每天依然在继续收集数据,对于他在微博里关注的人,他按照两个维度来分类:一是他们懂什么东西,即有什么特长;二是重要性,进行5~20分钟,或者45分钟关注度的划分。这样划分的意思是:如果今天早上我只有5分钟,那我就只看重要朋友发布的信息;如果我有10多分钟,我会把重要性为5分钟和20分钟的朋友发布的信息都看完。

这就是瑞斯的个人大数据管理,能让我们有一定的借鉴作用。

从收集数据的角度来看:首先,瑞斯在选择有效的数据源;其次,瑞斯有重要性的选择,所以瑞斯能很好地控制自己的时间。瑞斯每天做完这些数据收集的时间大约是一个小时,时间久了,瑞斯现在对每个数据源甚至提供数据的专业人士的能力都了若指掌。某一个学者的观点是怎么样的;腾讯的记者能力如何;哪个网站周六日是不用关注的;凤凰网比较勤奋,周六是有人上班的;腾讯网最努力,每天都有新闻……甚至,各家媒体参加了哪些会议,这些瑞斯都知道。

瑞斯现在已经对数据积累与决策质量之间的关系具备了一种直觉,所以他开始对电子商务有了领悟。

当然,在运营数据和数据化运营的这个闭环里,我们一定要假设一切都在变化,一定要去关注还有没有一些新的数据收集源头,现有的数据源会不会出现问题,还有什么新的数据源头是缺失的。比如,近年来兴起的虎嗅网这样的新媒体;比如1991年,特别喜欢发表大数据文章的人。要想成为一个“大数据专家”,你就要了解更多信息源,摄取更多的信息。这就像和行业内的高手过招,我们在积累的过程中是在动态中不断迂回地走向目标的。

用标签管理个人大数据

前面提到,大企业需要“养数据”。个人在“养数据”的过程中需要注意哪些呢?我们要清楚,关键词标签是进行数据管理最重要的工具,透过标签我们可以快速定义一篇报告的内容,而数据每次调用的顺畅情况则可以用来衡量这一标签是否有效。

在个人大数据管理中,最常见的关于标签的矛盾点是,你给某篇文章上了标签,但这个标签却一直是动态变化的。过了一段时间,你会发现这个标签失效了,而你设置标签的时候却是正确的。举个例子,你给某个朋友贴上的标签是“美女”,但是过了10年后,她老了,你这个“标签”就失效了,就要进行升级了。

我们把这个现象称为标签的生命周期。

你以前的标签是对的,但是经过一段时间之后,这个标签就失效了,所以你需要更新索引,而这个过程所花费的力气非常大。多年来,有人不断地去寻找与电子商务有关的标签,以下是数据专家总结的3点经验,可以分享给大家。

1.越有效的标签就越能让人快速地调取数据。标签的用途多样,比如做知识分类的、识别来源的、情景和人物描述的以及表明时序的等。

2.要注意知识范畴的培养。例如,在电子商务中,可以运用各种分类标签,其中行业标签有:B2B、B2C、C2O、外贸B2C、外贸B2B等。技术支持方面的标签有:大数据、营销方法、用户体验、微营销等。

3.场景的标签分为公司与人物,再加上时间。

可见,由时间链、共识面(公司、人物、来源)、知识体系(标签)和格式(内容)所构成的一张知识图谱是解码决策分析的依据。

试想,你正需要一篇关于物流的文章中的数据做参考,你回忆起来这好像是上周的。再增加一个维度去看的话(共识面),就可以用“过去两周+物流”去看在这两周内还有谁提到了“物流”。

你会发觉数据标签中有些是历久弥新的,即生命周期比较长的,比如人的名字,不论这个数据从哪儿来、在哪里、谁说的,都不会对数据标签产生影响。但有些标签是对趋势的界定,则需要经常地总结或细分。

收集到的数据要如上述这样贴上标签。当要调取数据时,你会在心里想一下数据的来源是哪家媒体、哪个人、什么时候获取的。这样一来,时间线和来源就成了你锁定想要数据的重要线索。

从另一个角度来说,当你想知道亚马逊在物流中的新动向时,不妨先锁定物流行业和公司标签,再配合时间线做决策。如果你想到“大数据+周涛+3个月内”,你往往根本不用想文章的细节,就可以将之调取出来。这就是大数据让我们已经发生的改变——我们只要记住几个标签作线索,就可以轻松地调用1万篇文章内的数据。

但千万不要觉得你可以一劳永逸了,因为这些标签会随着时间变化而“失效”,这样数据管理就成为了重要的一环。数据分析师都有变态的数据洁癖,他们对数据的来源极为看重。所以,将人和公司进行区别对待。人是特别的,可以离开某家媒体和公司,是流动的,但是如果将数据管理定位在人之上,就是表示你认为人更重要。如果定位在了公司和媒体的背景之上,那么公司或媒体就更重要了。

这就是变化。在大数据的世界中,没有人要求你获得细节,没人要求你成为一名数据分析方面的专家,但是要求在你需要拿到一个专家的数据时,能够快速地调出来。做到这样的话,就已经突破了人类短时记忆的短板,你就会成为一个很成功的人。

让自己成为数据分析师

有一个故事:一个互联网公司的数据分析师下班回家,在电梯里遇到保洁员大妈。两人打了个招呼后,保洁员大妈淡淡地问道:“最近你的压力大了不少吧?”数据分析师心里一惊,心想:

“难道她知道老板找我谈话的事?不可能吧……”于是带着怀疑问保洁员是怎么知道的。保洁员大妈淡淡一笑,回答说:“你们这帮人中,就你一个人抽中华烟,我发现这几天中华烟的烟头多了不少,就这么猜测了。”数据分析师深感佩服。

这个故事跟大数据没什么关系,却跟数据分析有点关系。同样是垃圾,一点小的线索也能让保洁员大妈做出正确的判断。可见,数据是随处可见的,只要是有心人,哪里都能够进行数据分析,人人都可以做个数据分析师。