澳洲进口奶制品联盟

剑桥美女博士后不做科研,做起了大数据?

只看楼主 收藏 回复
  • - -
楼主

王婧给人的感觉是一个邻家姑娘,温暖的笑容和温软的嗓音,亲和力之强,有时足以让人忘记她曾经是个有赫赫战绩的「剑桥的博士后」。


从复旦大学生命科学院到中国科学院上海生命科学院,从本科到博士,她一直是众所周知的「学霸」。


2008 年,完成英国剑桥大学糖尿病流行病学博士后工作后,她回国担任上海市肿瘤研究所助理研究员,那时,她俨然已是「准科学家」了。


要说她参加过的研究,包括欧洲肿瘤前瞻性研究 (EPIC, European Prospective Investigation of Cancer)、上海女性健康研究 (SWHS, Shanghai Women’s Health Study)、上海市区胰腺癌病例对照研究等。这在流行病学研究领域里,均是知名的大型研究……


有研究自然少不了发文章,王婧在读时,以第一作者发的 SCI 论文就有小十篇,挂名的文章更是数不过来。但这其中,她最为满意的一个文章,还数被「路透社」深入挖掘报道的一个。


王婧为第一作者发表的部分论文


其中一篇,被路透社深入报道


就这么一个大家都看好这个「学霸」,即将成为科学界未来熠熠生辉的明星时,她做出了一个让人惊讶的决定:


离开学术界,加入了一个医疗互联网公司。对,没错,就是咱们丁香园。


一个让人生改变的研究


她开始在新西兰开展那个关于健康食品的研究的时候,万万没想过,自己的一生会被这个研究所改写。


那个研究想要了解的是「健康食物的可获得性」 。她们在新西兰 162 个不同研究点进行观察,收集了 1,230 个食品零售场所的数据。收集了数以万计的数据,进行同一类食物的「健康版本」和「正常版本」的销售情况的比较(比如白面包和全麦面包、全脂牛奶和脱脂牛奶,可乐和无糖可乐等)。


健康食品在新西兰的可及性研究


然而,花了小几年做出来的结果,却让她深深地反思了起来:营养学家的建议可能并不能真正帮助人们有更健康的生活,换句话说,就是不够「接地气」。


她们在研究里发现,营养学家推崇的健康食品,其实在新西兰广阔的郊区,是根本买不到的。


不仅如此,这些食物还额外昂贵,如果一个新西兰家庭一个月都要吃这种健康食品的话,每个月就必须多花 200 美元(约 1,300 元人民币)。这 200 美元对普通的工薪阶层来说,可算是一个不小的负担。


我当时看到的,其实是一方面是学术界和科普界不遗余力地在宣传研究成果,一方面是社会环境很不利于大众去过那种健康生活。所以感觉如果老百姓生活的环境得不到改善,再多的真理和宣传都是枉然。


而与此同时,她敏锐地感觉到世界发生了一些微妙而迅猛的变化:


家里快递开始多起来了,广东的牛肉丸北京的稻香村青岛鲜啤今天刚出产明天就到了包邮区;长辈们开始在微信群里抢红包,哪哪哪有好吃好玩的,退休的爸妈群里信息多如牛毛……


她意识到,互联网影响了大家的「生活环境」,大家更多的生活场景,发生在互联网上。如果要改变人们的健康环境,互联网想必是最好的途径了!


而在众多的互联网公司里,她毫不犹豫地选择了丁香园,因为过去多年的学术经历中,有过丁香园的陪伴和帮助。


2017 年,她成为了丁香园大数据团队的高级分析师。


健康数据之宏大


她是学流行病的,加入大数据团队实在是让她如鱼得水,但稍有不同的是,从丁香园平台获取的数据是过去大型流行病学研究的量级的数百甚至数千倍。


丁香园里,每秒钟都有几百万用户每时每刻的客观行为数据,比起一般的传统流行病学调研,数据的数量和质量都是飞跃。


王婧一提起她的数据和工作,眼睛就发亮。


「大数据」之名并不浪得虚传,一个人一生的健康数据,足有 1,000 TB 之多。丁香园大数据团队的总监吴睿举了一个例子来帮助我们理解这个数据的宏大:


1998 年, Google 刚成立之初,互联网尚未成为流行,在其上收集的全网数据大概是 47 G,而目前最低配的苹果手机,内存容量是 64 G。


也就是说,1998 年,人类互联网上总的信息量,大概只用一部苹果手机就能存储下来了。而 1 000 TB,这个数量级的健康数据,大概需要 20 000 部这种低配苹果手机才能记录。


健康数据为什么如此宏大呢?这要从健康数据的分类说起,健康数据一般分为三部分:临床数据、基因数据、行为数据。


这三类数据中,又以行为数据最为庞大,涵盖面也最广,涉及运动、饮食、睡眠、社交乃至个人经济状况。


随着可穿戴设备和移动互联设备的广泛应用,这些利用传统设备无法顺利采集到的数据开始呈现出暴发性增长的态势。用户在互联网上的行为,通过一定的方法收集和分析,将会产生巨量的价值。


从 2016 年下半年开始,丁香园就着手开始梳理和建立大数据团队了,在原有的数据基础上,一方面加深了数据挖掘的投入,一方面在数据积累上的技术又更加强大。


「大数据将会是健康研究未来发展的方向。」王婧是这么展望的。


大数据的商业价值


挖掘数据商业价值,让数据的价值得以更大地推广,是王婧加入丁香园的另一个重要原因。


但到底数据的商业价值有哪些呢?


根据 IDC 和麦肯锡的大数据研究报告指出,挖掘大数据商业价值的方法主要以下几种:


  1. 根据不同用户的行为数据,定义不同的用户群体并对此采取不同的营销手段;


  2. 通过积累的数据条件,通过运算,模拟出虚拟的场景,寻找出潜在有价值的用户;


  3. 通过数据观察运营环境的变化,适时调整运营策略,保持产品和服务的创新和适应性。


王婧也确实是这么实践的。


第一个具体的实践,就是帮助「来问丁香医生」这个平台,寻找潜在优质的医生用户。


来问丁香医生这个产品是一个在线健康咨询平台。运营人员经过分析后,发现平台对医生用户的需求,远远大于目前已经注册的优秀医生的量。


但另一方面,丁香园作为一家运营了 17 年的医疗互联网公司,已经累积了大量优质的用户,他们还未成为来问丁香医生上的注册用户。


如何从现有的盘子里挖掘到我们要找的人呢?大数据给了她答案。


经过分析,王婧的团队发现了在来问医生上回答优质的用户,行为都有共同特点:都是丁香园论坛的注册用户,有长时间在丁香园论坛上讨论、学习的习惯,在论坛平台上更倾向分享知识,分享内容质量更高,在同行中有更好的美誉度。


通过对已有用户的行为分析,他们建立了一个包含用户背景信息和行为数据的模型,并用这个模型在丁香园全体用户中筛选潜在的好医生,作为来问丁香医生的用户储备。


通过计算机的无数次拟合和参数调整以后,得到了预测效果最优的模型。这一模型能够在丁香园全体用户的池子里,迅速拟合出一批符合运营需求潜在优质用户。


这不仅对运营来说有极大的帮助,也对大数据团队的初次「跨界」尝试注入了一剂强心针。丁香园大数据团队目前发展迅速,如果有相关技能和兴趣,不妨点进文末「阅读原文」,加入我们吧!


大数据的商业价值


问及王婧怎么看丁香园未来的大数据发展,她又露出熟悉的温柔的微笑。只给我分享了一段《预见未来》的经典台词:


Here's the thing about the future.

关于未来有一个重要的特征。


Every time you look at it,

每一次你看着未来,


it changes because you looked at it.

它会发生改变,因为你看着它。


And that changes everything else.

然后其它事也跟着一起改变了。


或许对于通过数据看到更接近真相的人来说,预测未来,已经不是遥远的事情了。(责任编辑:猫羯座)


相关阅读

在生物公司做技术支持是一种什么样的体验?

大龄生物女土博的漫漫求职路


想和王婧聊聊大数据吗?

长按或扫描下面的二维码,给她留言吧!



举报 | 1楼 回复

友情链接