Friday, November 18, 2016

如何成为数据科学家?(知乎live记录)

时间:18/11/2016

人物:北冥乘海生

数据、机器学习和产品体系的关系



研究互联网任何分支最重要的是研究它的产品,产品承载的是利用数据深度加工后的变现,机器学习就是这艘船的动力。

大数据链条是什么?应该有什么样的大数据视野?

    

  • 本质:什么是大数据?如何利用大数据?
如今对于大数据的处理和加工,google应该算是处于第一梯队,但是它并没有去刻意宣传这个概念。大数据这个概念原本起源于一家咨询公司,现在也没有明确的定义。

网络上诸如4V定义法:
数据量大(Volume)、数据多样性(Variety)、高误差性(Veracity)、输入和处理速度快(Velocity)),这种定义Liver认为只是是概念性、表面性的判断。


不同于4V定义发,Liver认为大数据本质上有如下三个特点:

行为数据,全量加工以及自动化应用。

行为数据:我们可以大致把数据分为传统数据和行为数据。举个例子,对于通信运营商来说,传统数据来源于交易数据,比如用户用了多少流量,账户多少余额等,而行为数据则是用户使用数据的时间,地点等等。行为数据往往量很大,可能是交易数据的100倍以上,并且一致性要求不高,对于少部分的用户数据丢失也没有关系,有相应的分布式架构如Hadoop来处理此类数据。

全量加工:先举个反例,有些数据总量非常大,但是可以通过每个省份进行采样,进而不需要复杂的分布式的系统来处理就能达到分析数据的目的,这种情况就不能算作是大数据。大数据必须是全量加工,即数据量大,不能通过采样等减小,几乎所有信息都要用来处理。

自动化应用:这里要先区分洞察应用,洞察应用指的是通过数据分析帮助人去做决策,比如运营人员通过机器学习,把数据总结成报表,来帮助公司CEO, CTO决策。而对于自动化应用,整个过程都是机器在参与,机器抓去数据,分析数据,以及自动决策,比如只能广告投放系统,也即Liver写的《计算广告》这本书所提到的。另外一个自动化的应用是电商的自动购货系统,通过机器学习来定价,分析消费者喜好,并且自动给供应商下单。

  • 产品:大数据能做什么?市场上是怎么做的?
大数据非常重要的一点就是了解产品逻辑,知道产品链条,这样才能去指导公司的研究和产品方向。


大数据链条的产品和问题:

收集:什么样的数据有价值?如何收集整理?举个例子,医疗行业,交易数据是用户的检查结果和病例,而行为数据是一个没有病的人的日常的生理指标。这些行为数据往往蕴含了极大的信息量以及潜在的商业价值。软银孙振义预测物联网将在2020年达到一个小高潮,人均sensor的连接数能够达到1000个,海量的数据将涌现。如何收集整理这些数据会是第一步。

加工:如何把数据加工成为有用的信息?比如数据在hadoop上如何存放,如何根据手机的数据获得用户的profile “画像”(我对画像的理解,比如生理特征:包含性别,身高,年龄,etc; 社会地位:职业,社会阶层,薪水,etc;社交等:社交网络种类,花在社交网络的时间;习惯:购物习惯等等,不一一列举了)

变现:通过什么样的产品,能够把数据变成钱?对数据加工后,就可以提供个性化的服务和推荐。比如计算广告,通过个人用户生理画像来提供医疗咨询或者是健康保险。比如帮助商家分析用户画像,制定最佳销售策略。

交易:数据资产如何交易?存在哪些问题?(不太清楚是不是指把这些机器处理后的数据卖给大公司,比如说是保险医院等行业)


这里需要特别指出收集这一环节,美国大选模拟投票和最后结果每个洲差不多系统性的偏差了5%,这就和数据收集不当有很大的关系,很多底层的白人采访和模拟投票都投希拉里,但是心里却把最后的票给了川普。如果数据采集不当,那么后面的机器学习和数据分析也就失去了根基。所以数据收集时必须考虑清楚,是否这些数据有代表性,数据量是否足够,有没有重大干扰因素等。


  • 技能:我应该准备好哪些技能?
首先来看看数据科学家吧,什么是数据科学家呢?


百度里的解释有点无厘头。Liver的对于数据科学家的解读则是:

数据科学家是采用科学的方法论,调用充足的计算能力,将大量人类无法直接处理的数据转化为有用的信息,以驱动自动化业务决策的专家。

Liver的核心观念在于自动化方面,Liver提到过以后的趋势是机器全自动化,没有必要很多时间在洞察应用方面。但我对这点持保留态度。

硅谷传奇投资人Peter Thiel的《Zero to One》里面花了一个章节来阐述机器和人工的关系。他讲了他当年创立Paypal的故事。Paypal在早期主要依靠邮件来进行自动业务支付,但是欺诈交易一直困扰这这家创业公司,公司决定通过机器学习,建立了一套反欺诈判别系统,由机器自动判别交易是否是涉嫌诈骗,但是随着时间的推移,聪明的黑客总能找到其中的漏洞,在后期这套系统仍然阻挡不了恶意交易的发生,从而公司每年要蒙受巨大的损失。后来他们使用机器和人工相结合的方式,机器通过大数据分析,挑出欺诈率很高的交易,然后由人工来进行最终确认。结果大大降低了欺诈交易的事件。所以在未来,机器还是不能完全取代人类,有些三岁小孩儿能够轻而易举做到的,机器可能永远也做不到。机器不会思考,只是执行人类设定的程序而已,还没达到真正意义上的人工智能。因为是任何人工智能都是程序化的,所以总有黑客能够找到程序的弱点进行攻击。而我们让机器进行决策,往往必须要使用精确的数学模型,而很多东西没办法通过简单的模型进行量化,比如人的情绪,想法等,从而造成最终决策的失误。所以未来自动化应用和洞察应用都会有其相应的市场,并不像Liver说的未来只是自动化应用的世界。

下面谈一谈Data Scientist。硅谷把CS专业数据相关的博士毕业生都叫Data Scientist。Liver认为数据科学家是指采用科学的方法论,调用充足的计算能力,将大量人类无法直接处理的数据转化成为有用信息,以驱动自动化业务决策的专家。


数据科学家必备素质:机器学习原理和方法、领域知识的深刻认识、分布式计算使用能力。

数据科学家核心能力统计学基本准则、机器学习建模能力、最优化、Hadoop/Spark及相应的编程能力、领域学习能力。


数据科学家的养成途径主要靠如下三个方面


意识:数据优先于经验,计算先于人工。这两点虽然看起来简单,但是却很难做到,比如在游戏里的草坪到底设置为什么颜色?经验告诉我们绿色比较好,因为真实世界就是这个样子,但是如果考虑到用户交互率,则可能数据分析后会有不一样的结论。而计算优于人工,则在广泛体现在A/B Test里面,比如报纸版式或者标题决策,还有游戏里面值的设定等等。

能力:熟悉一项典型应用,定义问题目标能力。Liver建议结合一个具体按理来学习理解,比如计算广告。定义问题是一项非常重要的技能,指的是把问题转化为数学上可优化问题的能力。比如搜索里面的NDCG算法,提出了一个搜索质量的定义,把一个复杂的过程问题转变为了可用数序语言描述的问题,从而可通过程序上可实现最优化,NDCG的提出导致了搜索行业很长一段时间的蓬勃发展。最后,建模能力如何培养?这个需要培养意识,扎实的理论和技术的积累,并在实践中不断的锻炼,没有捷径可言。

技能:机器学习、最优化、分布式计算、编程语言、博弈论


零基础应该从何做起?



了解行业:对数据产业的全链条、主要应用、核心产品、市场现状有具体充分的了解

打好基础: 熟练掌握机器学习、最优化、分布式编程等基本能力

抓住实践机会: 找到工业界的实际问题,在工程实践中检验和提高自己

另外数据领域不仅仅有数据科学家!还有数据工程师来维护开发大数据平台,数据分析师来做洞察应用等。而运营人员则不一定要对具体数学和技术很了解,但是必须要了解金字塔顶端。


推荐的书籍


数据行业概率:
《大数据时代》

数据行业实战:
《计算广告》、《推荐系统实战》

数据相关技能:
机器学习 :《PRML》、《Deep Learning》
最优化: 《Convex Optimization》、《Numerical Optimization》
分布式计算:《Hadoop/Spark》、MOOC等



这是我在个人主页上首发,转发要注明出处。

JasonHuang

No comments:

Post a Comment