Know Thyself: 如何成为数据科学家？（知乎live记录）

时间：18/11/2016

人物：北冥乘海生

数据、机器学习和产品体系的关系

研究互联网任何分支最重要的是研究它的产品，产品承载的是利用数据深度加工后的变现，机器学习就是这艘船的动力。

大数据链条是什么？应该有什么样的大数据视野？

本质：什么是大数据？如何利用大数据？

如今对于大数据的处理和加工，google应该算是处于第一梯队，但是它并没有去刻意宣传这个概念。大数据这个概念原本起源于一家咨询公司，现在也没有明确的定义。

网络上诸如4V定义法:
数据量大(Volume)、数据多样性(Variety)、高误差性(Veracity)、输入和处理速度快(Velocity)），这种定义Liver认为只是是概念性、表面性的判断。

不同于4V定义发，Liver认为大数据本质上有如下三个特点：

行为数据，全量加工以及自动化应用。

行为数据：我们可以大致把数据分为传统数据和行为数据。举个例子，对于通信运营商来说，传统数据来源于交易数据，比如用户用了多少流量，账户多少余额等，而行为数据则是用户使用数据的时间，地点等等。行为数据往往量很大，可能是交易数据的100倍以上，并且一致性要求不高，对于少部分的用户数据丢失也没有关系，有相应的分布式架构如Hadoop来处理此类数据。

全量加工：先举个反例，有些数据总量非常大，但是可以通过每个省份进行采样，进而不需要复杂的分布式的系统来处理就能达到分析数据的目的，这种情况就不能算作是大数据。大数据必须是全量加工，即数据量大，不能通过采样等减小，几乎所有信息都要用来处理。

自动化应用：这里要先区分洞察应用，洞察应用指的是通过数据分析帮助人去做决策，比如运营人员通过机器学习，把数据总结成报表，来帮助公司CEO, CTO决策。而对于自动化应用，整个过程都是机器在参与，机器抓去数据，分析数据，以及自动决策，比如只能广告投放系统，也即Liver写的《计算广告》这本书所提到的。另外一个自动化的应用是电商的自动购货系统，通过机器学习来定价，分析消费者喜好，并且自动给供应商下单。

产品：大数据能做什么？市场上是怎么做的？

大数据非常重要的一点就是了解产品逻辑，知道产品链条，这样才能去指导公司的研究和产品方向。

大数据链条的产品和问题：

收集：什么样的数据有价值？如何收集整理？举个例子，医疗行业，交易数据是用户的检查结果和病例，而行为数据是一个没有病的人的日常的生理指标。这些行为数据往往蕴含了极大的信息量以及潜在的商业价值。软银孙振义预测物联网将在2020年达到一个小高潮，人均sensor的连接数能够达到1000个，海量的数据将涌现。如何收集整理这些数据会是第一步。

加工：如何把数据加工成为有用的信息？比如数据在hadoop上如何存放，如何根据手机的数据获得用户的profile “画像”（我对画像的理解，比如生理特征：包含性别，身高，年龄，etc；社会地位：职业，社会阶层，薪水，etc；社交等：社交网络种类，花在社交网络的时间；习惯：购物习惯等等，不一一列举了）

变现：通过什么样的产品，能够把数据变成钱？对数据加工后，就可以提供个性化的服务和推荐。比如计算广告，通过个人用户生理画像来提供医疗咨询或者是健康保险。比如帮助商家分析用户画像，制定最佳销售策略。

交易：数据资产如何交易？存在哪些问题？（不太清楚是不是指把这些机器处理后的数据卖给大公司，比如说是保险医院等行业）

这里需要特别指出收集这一环节，美国大选模拟投票和最后结果每个洲差不多系统性的偏差了5%，这就和数据收集不当有很大的关系，很多底层的白人采访和模拟投票都投希拉里，但是心里却把最后的票给了川普。如果数据采集不当，那么后面的机器学习和数据分析也就失去了根基。所以数据收集时必须考虑清楚，是否这些数据有代表性，数据量是否足够，有没有重大干扰因素等。

技能：我应该准备好哪些技能？

首先来看看数据科学家吧，什么是数据科学家呢？

百度里的解释有点无厘头。Liver的对于数据科学家的解读则是：

数据科学家是采用科学的方法论，调用充足的计算能力，将大量人类无法直接处理的数据转化为有用的信息，以驱动自动化业务决策的专家。

Liver的核心观念在于自动化方面，Liver提到过以后的趋势是机器全自动化，没有必要很多时间在洞察应用方面。但我对这点持保留态度。

硅谷传奇投资人Peter Thiel的《Zero to One》里面花了一个章节来阐述机器和人工的关系。他讲了他当年创立Paypal的故事。Paypal在早期主要依靠邮件来进行自动业务支付，但是欺诈交易一直困扰这这家创业公司，公司决定通过机器学习，建立了一套反欺诈判别系统，由机器自动判别交易是否是涉嫌诈骗，但是随着时间的推移，聪明的黑客总能找到其中的漏洞，在后期这套系统仍然阻挡不了恶意交易的发生，从而公司每年要蒙受巨大的损失。后来他们使用机器和人工相结合的方式，机器通过大数据分析，挑出欺诈率很高的交易，然后由人工来进行最终确认。结果大大降低了欺诈交易的事件。所以在未来，机器还是不能完全取代人类，有些三岁小孩儿能够轻而易举做到的，机器可能永远也做不到。机器不会思考，只是执行人类设定的程序而已，还没达到真正意义上的人工智能。因为是任何人工智能都是程序化的，所以总有黑客能够找到程序的弱点进行攻击。而我们让机器进行决策，往往必须要使用精确的数学模型，而很多东西没办法通过简单的模型进行量化，比如人的情绪，想法等，从而造成最终决策的失误。所以未来自动化应用和洞察应用都会有其相应的市场，并不像Liver说的未来只是自动化应用的世界。

下面谈一谈Data Scientist。硅谷把CS专业数据相关的博士毕业生都叫Data Scientist。Liver认为数据科学家是指采用科学的方法论，调用充足的计算能力，将大量人类无法直接处理的数据转化成为有用信息，以驱动自动化业务决策的专家。

数据科学家必备素质：机器学习原理和方法、领域知识的深刻认识、分布式计算使用能力。

数据科学家核心能力： 统计学基本准则、机器学习建模能力、最优化、Hadoop/Spark及相应的编程能力、领域学习能力。

数据科学家的养成途径主要靠如下三个方面

意识：数据优先于经验，计算先于人工。这两点虽然看起来简单，但是却很难做到，比如在游戏里的草坪到底设置为什么颜色？经验告诉我们绿色比较好，因为真实世界就是这个样子，但是如果考虑到用户交互率，则可能数据分析后会有不一样的结论。而计算优于人工，则在广泛体现在A/B Test里面，比如报纸版式或者标题决策，还有游戏里面值的设定等等。

能力：熟悉一项典型应用，定义问题目标能力。Liver建议结合一个具体按理来学习理解，比如计算广告。定义问题是一项非常重要的技能，指的是把问题转化为数学上可优化问题的能力。比如搜索里面的NDCG算法，提出了一个搜索质量的定义，把一个复杂的过程问题转变为了可用数序语言描述的问题，从而可通过程序上可实现最优化，NDCG的提出导致了搜索行业很长一段时间的蓬勃发展。最后，建模能力如何培养？这个需要培养意识，扎实的理论和技术的积累，并在实践中不断的锻炼，没有捷径可言。

技能：机器学习、最优化、分布式计算、编程语言、博弈论

零基础应该从何做起？

了解行业：对数据产业的全链条、主要应用、核心产品、市场现状有具体充分的了解

打好基础：熟练掌握机器学习、最优化、分布式编程等基本能力

抓住实践机会：找到工业界的实际问题，在工程实践中检验和提高自己

另外数据领域不仅仅有数据科学家！还有数据工程师来维护开发大数据平台，数据分析师来做洞察应用等。而运营人员则不一定要对具体数学和技术很了解，但是必须要了解金字塔顶端。

推荐的书籍

数据行业概率：

《大数据时代》

数据行业实战：

《计算广告》、《推荐系统实战》

数据相关技能：

机器学习：《PRML》、《Deep Learning》

最优化：《Convex Optimization》、《Numerical Optimization》

分布式计算：《Hadoop/Spark》、MOOC等

这是我在个人主页上首发，转发要注明出处。

JasonHuang

Know Thyself

Friday, November 18, 2016

如何成为数据科学家？（知乎live记录）

数据、机器学习和产品体系的关系

大数据链条是什么？应该有什么样的大数据视野？

No comments:

Post a Comment

About Me