选对行业就是选对前途，根据美国招聘网站 Glassdoor 关于50个最热门工作岗位的报告，数据科学家毫不意外的连续第二年获得了首位。每年Glassdoor 会根据所有工作获得的“ Glassdoor 工作得分”发布此报告。评分取决于三个关键因素：市场职位需求，工作满意度和平均年薪。凭借着工作得分 4.8 分，工作满意度 4.4 分（ 5 分为满分），平均年薪 11 万美元，数据科学家名列最热门工作榜首。

事实上，在过去的一年中，数据领域相关工作在类似的就业报告也占据着统治地位。CareerCast.com 的一项最新研究显示，数据科学家工作在未来七年内具有强劲的增长潜力。根据 Computer Science Zone 的统计，估计在未来十年内，计算机相关工作的职位空缺高达1百万,在 LinkedIn 上搜索数据科学家职位，可以发现有 13700 多个职位需求。另外，根据工作趋势发布网站 Indeed 的数据，数据科学家的求职人数的递增没有丝毫放缓的迹象。

2.行业介绍

（1）关于Data scientist

数据科学家指的是采用科学方法、运用数据挖掘工具、寻找新的数据洞察的工程师。数据科学家集技术专家与数据分析师的角色于一身，与传统数据分析师相比：后者通常利用企业的内部数据进行分析，以支持领导层的决策；而前者更多的是通过关注面向用户的数据来创造不同特性的产品和流程，为客户提供有意义的增值服务。

这个职位在不同公司倾向性会有所区分。有些偏business，也就是所谓的data analyst, business intelligen；有些偏统计的：比如做实验设计（ab test），做模型的prototype；有些偏CS的，比如 machine learning in big data framework，现在很火的deep learning。

（2）Data scientist 职位由来

在data scientist这个title红得发紫之前，美国的互联网公司里有那么几类角色（或者说职位）：

Research scientist/Researcher：如Yahoo Labs, Google Research, MSR中的大多数人。这些人主要负责为公司提供前沿的研究成果，支撑公司未来1-10年的业务前景。他们的产出或是产品化研究成果，或是发表学术出版物。这样的职位要求良好的科研能力和前瞻性的视野，职业发展路线有点像学校里的教授，主要通过学术水平和影响力的提升来提升自身的职业路线。

Business analyst：这个其实很多行业都有，具体的职责依赖于公司的业务很难一概而论，引用一下wikipedia的一段话感受下：“The International Institute of Business Analysis(IIBA) describes the role as "a liaison among stakeholders in order to understand the structure, policies, and operations of an organization, and to recommend solutions that enable the organization to achieve its goals.” 这类职位要求更贴近公司或机构的日常业务，提供决策支持等功能。职业发展路线往往是初级分析师、高级分析师、再往后往往很快变成业务或者部门负责人。

Statistician：许多互联网公司和传统公司都可能出现过这样title的职位，如Microsoft、Netflix等。这样的职位往往是学统计出身的最适合。他们的职责更多在对成熟的问题定义上进行有效的统计建模和分析，最后给出actionable information or insights。相比analyst，他们往往在数学上更专业，当然本来这些职位的概念就是互相交织覆盖的，这里只是说一个大面上的意思。statistician往往还要负责设计实验，这是他们工作中必须担起的责任之一。他们的职级系统通常非常扁平。

Quantitative analyst：Google里的职位：和前面所述的BA和Statistician都有交叉的地方。他们的职级也是junior到principal这种套路。

在AI，ML，DM，NLP等领域良好理论背景的工程师。他们动手能力强，coding和productization上有很强的优势。处理数据的能力不在话下，又因为具有良好的理论背景，做起模型来也得心应手，这样的人也有一部分转向了data scientist的职位。他们的职级系统和传统的工程师没有太大区别。

（3）data scientist、data analyst data engineer的区别是什么？

Data Engineer顾名思义，是软件工程师（software engineer）的一种。这类工程师做的事情其实非常直白，就是把产品本身产生的原始数据记录进数据库，然后把在数据库里把这些原始数据成表格。举个简单的例子，微博上每一个用户的行为，包括搜索话题、评论、点赞，等等，都需要工程师通过写javascript把这些行为数据存进服务器里，然后存成一个表格记录下来每一天，每一秒，每一个用户做了什么动作。Data Enginner 所做的一切都为了Data Management，具体内容包括数据模型、数据架构、数据标准、元数据、主数据、数据治理、数据管控等等，Data Enginner的目标是把数据整好，存储成本低，查询效率高，至于怎么使用这些数据不是他们关心的范畴。

Data Scientist在Google被称作quantitative analyst，翻译过来大概类似于量化分析师。这类职位比较特殊，是一种非常technical、对学术能力要求非常高的职位。Data Scientist解决的问题就是，如果我们对搜索的排序做一些改动，如何通过统计学的方法精确测量这个改动对搜索整体带来的影响。这个影响往往是非常小的（Google 1天平均10亿次搜索，这个量级上的任何改动都是至关重要的）。

Data Analyst在Google被称作商业分析师（business analyst）或者是产品分析师（product analyst）。这个职位的作用是沟通产品和商业的桥梁，服务对象一般是产品经理以及高层领导。Data Analyst首先会把工程师维护的数据进行ETL（extract, transform, load），也就是传说中的跑数据（大多用SQL）。随后Data Analyst会把这些提取出的数据转化为“生产力“，也就是能够指导商业或者产品的建议。工作场景：产品经理上线了一款产品，这款产品运行的怎么样？有多少人访问？有多少人购买？购买人数始终上不去是什么原因？如何发掘购买人数降低的原理然后针对这些原因进行有目的的处理？这些都是通过分析产品产生的数据得到的。

二、机器学习（machine learning）

1.定义

Machine learning有下面几种定义：

定义一

机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究。
机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

定义二

Machine Learning即是指能够帮你从数据中寻找到感兴趣的部分而不需要编写特定的问题解决方案的通用算法的集合。
举例而言，算法中一个大的分类即分类算法，它可以将数据分类到不同的组合中。而可以用来识别手写数字的算法自然也能用来识别垃圾邮件，只不过对于数据特征的提取方法不同。相同的算法输入不同的数据就能够用来处理不同的分类逻辑。

2.machine learning不可不知的那些事

（1）机器学习与人工智能不能简单混为一谈

机器学习指的是从数据中学习。机器学习能做到的是：通过使用正确的机器学习算法和输入training data，快速解决不同领域的问题。人工智能包含了机器学习，但同时也包含许多其他领域。这个词是如此宽泛，以致于它的意思非常模糊，越来越沦为一个流行热词。

当然，如果你觉得用人工智能这个词来包装机器学习，能让你的产品博得更多的眼球，那这么使用也没什么问题。不过要知道，在学术界外，人工智能只是一个可以被随意解释的热词而已。

（2）数据尤为重要

机器学习离不开数据和算法，而其中数据尤为重要。近几年来，机器学习，尤其是深度学习方面的算法进步飞快。但即使如此，数据在机器学习中的主导地位还是毋庸置疑的。你不一定需要非常好的算法，但却需要好的数据。但如果你的数据本身不够好的话，即使用再高明的算法，也无法挽回结果的偏差。正所谓失之毫厘，谬以千里。

（3）简单的模型也是好的

如果你的数据不是非常多的话，你应该尽量使用相对简单的模型。

机器学习的任务就是通过数据中的模式和规律来训练模型，探索由参数所定义的模型空间。如果参数空间设置的太大，而你没有足够的数据去训练这个模型的话，那就会出现过拟合的问题，使得这个模型无法推而广之。

举个例子：

假设你要做一个机器学习的模型，希望它判断一个动物是不是天鹅。你输入了很多白天鹅的图片去训练你的模型。随后，你使用这个模型去进行检测，发现你的模型能够准确的分辨出白天鹅，却无法辨认黑天鹅。这可能是因为“过拟合”。或者说，你的模型将“羽毛为白色”这个局部特征，作为了一个全局特征进行了解释。

这个背后具体的数学原理比较复杂，这里就不赘述了，但是，你可以记住这样一个原则：在多个模型都能同等地解释样本的情况下，我们选最简单的模型（奥卡姆剃刀原则）。

（4）数据的优劣决定结果

机器学习的结果是由训练数据的优劣来决定的。你有多好的数据，就会有多好的结果。早在机器学习出现之前，便有这样的谚语：“垃圾进，垃圾出”。这一说法恰当地描述了在机器学习中，数据是机器学习结果的关键限制。

机器学习只能发现在训练数据中存在的模式，因此，训练数据对于结果是有决定性影响的。对于监督机器学习中类似“Classification”这样的任务，训练数据就更为重要了。只有标识正确、样本特征丰富、数据量大的training data才能很好的训练模型。

（5）数据代表性决定机器学习有效性

只有在训练数据具有代表性的情况下，机器学习才是有效的。

基金公司通常会有这样的免责声明：“过去的表现并不能保证未来的结果”。在机器学习中也应该有类似的警示。这是因为，只有在training data和real data不论从特征、还是样本分布都足够接近的情况下，机器学习的工作才是有效的。

因此，要时刻注意训练数据与应用数据间的不同，并且经常对模型进行再训练，这样才能保证他们不过时。

（6）机器学习大量的工作是无聊的

机器学习大量的工作是数据转换。在阅读一些有关机器学习新技术文章的时候，你可能会觉得机器学习中最主要的是选择和优化算法。然而现实是，你大部分的时间和精力都会用在清理数据和特征工程上——或者说，是将原始数据的特征转换成模型所需的对应特征。

举个栗子：

如果想要用机器学习的方法，根据各国的经济数据，评估未来金融市场的风险。那必须从网上下载不同格式的数万个图表，并一个一个的把他们转化成一个机器学习能够理解的统一格式。这可能需要两三个人重复劳动好几个星期才能完成。

（7）Deep learning是革命性进步

深度学习是一种革命性的进步，但它也并非魔法。深度学习近年来越发火热，是因为它可以在机器学习领域中广泛应用，并产出比机器学习更好的结果。除此之外，深度学习还自动化了一些传统上通过特征工程来完成的工作，尤其是图像和视频数据的处理。

但是深度学习也不是万能药，在清理数据和转换上面，你依旧需要投入大量的精力。

（8）机器学习的问题往往是人祸

机器学习系统极容易被人为失误所影响。就如常言所说：“机器学习算法不会杀人，只有人才会杀人。”

通常导致机器学习系统出故障的原因，都是人为引入了错误的训练数据，造成了偏差和系统错误。而机器学习算法出错只占少数。

所以，永远保持怀疑，并在学习机器学习的时候，以更高的标准要求自己。

（9）小心自证预言问题

机器学习会不经意的创造出一个自证预言。

自证预言即人们先入为主的判断，无论正确与否，都将或多或少的影响到人们的行为，以至于这个判断最后真的实现。

在许多机器学习的应用中，你今天做出的决定会影响你明天所收集到的训练数据。

一旦你的机器学习模型产生了偏见，它就可能继续产生新的训练数据来强化这些偏见。而有些偏见有可能会毁了人们的生活。因此要对自己所创造的模型负责，不要创造自证预言。

3.机器学习常见分类

有监督学习：从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。（使用已知正确答案的示例来训练网络）
无监督学习：与监督学习相比，训练集没有人为标注的结果。（适用于你具有数据集但无标签的情况）
半监督学习：介于监督学习与无监督学习之间。（结合了大量未标记的数据和少量标签数据）
增强学习：通过观察来学习做成如何的动作。（针对你再次没有标注数据集的情况而言）

machine learning更加关注相关性和预测，在金融、生物科技、化学、心理等领域都有着不错的前景。

美国经济学家范里安认为：计算机技术现在已经深入到经济学研究中。传统的统计和计量方法，比如回归分析，当然是不错的研究方法，但如今数据量越来越大，而正好符合研究要求的数据已然有限，同时大数据量让变量之间的关系变得更加灵活，传统计量中的线性以及大多非线性模型可能都无法满足这一要求，所以经济学家需要寻找新的研究方法。范里安认为，机器学习理论中的决策树（decision trees），support vector machines，深度学习（deep lerning）等技术，可以更加有效率的处理复杂的关系。

三、未来展望

1.行业优势

实力告诉你数据科学家性价比有多高。

《哈佛商业评论》的一篇文章称，“数据科学家是21世纪最性感的工作”。有很多方面可以证明这点。从事金融、统计和运营研究的公司比以往任何时候都更加关注数据科学。数据科学正在为企业带来大量价值，同时数据科学家的需求也在迅速增长。大量的市场需求对于个人职业的发展也是十分有利的。

过去四十年，决定经济发展的是摩尔定律,而在未来二十年，真正改变经济发展的是大数据,因为数据分析，就是传说中预知未来的超能力,所有的公司未来都会是数据公司。

云计算+移动互联网+大数据（现在进行时）,机器智能（现在进行时）IT+生物医疗（未来趋势）已成为世界新技术的三大必然趋势，专家预测，到2020年将有40千兆字节的数据存在，大数据的时代已经来临。

(来源：搜狐)

第 1 2 页共2页

生成长微博 在线投稿 设本站为首页 收藏本站 猎头服务

我们尊重原创者版权，除非我们确实无法确认作者以外，我们都会注明作者和来源。在此向原创者表示感谢。本网转载文章完全是为了内部学习、研究之非商业目的，若是涉及版权等问题，烦请联系 service@execunet.cn 或致电 010-85885475 删除，谢谢！

发表评论：

主题：
内容：
	匿名发表验证码：登录名：密码：个人企业

发帖须知：

一、请遵守中华人民共和国有关法律法规、《全国人大常委会关于维护互联网安全的决定》及《互联网新闻信息服务管理规定》。
二、请注意语言文明，尊重网络道德，并承担一切因您的行为而直接或间接引起的法律责任。
三、管理员有权保留或删除其管辖留言中的任意内容。
四、您在本站发表的言论，本站有权在网站内转载或引用。
五、发表本评论即表明您已经阅读并接受上述条款。

企业找猎头

职业经理人找猎头

□职场观察相关资讯

□职场观察焦点企业对话

京ICP备05025905号-1

京公网安备 110105001605号