统计排行幸运大转盘每日签到社区服务会员列表最新帖子精华区博客帮助
主题 : 抓取了1400家科技公司的招聘信息,我发现数据工程师比数据科学家更有市场
说点啥呢?
级别: 综合论坛版主

UID: 41422
精华: 13
发帖: 19008
财富: 268898 鼎币
威望: 15 点
贡献值: 9 点
会员币: 0 个
好评度: 40 点
在线时间: 1175(时)
注册时间: 2019-04-21
最后登录: 2024-03-25
楼主 发表于: 2021-01-20  

抓取了1400家科技公司的招聘信息,我发现数据工程师比数据科学家更有市场

数据无处不在,而且只会越来越多。在过去的 5-10 年内,数据科学已经吸引了越来越多的新人投身于此。 x($Djx  
但如今数据科学的招聘状况如何?亚马逊 Alxea 团队的机器学习科学家 Mihail Eric 收集了多家公司的招聘信息后,在个人博客中撰写了一篇分析文章,阐述自己的思考。 "^;h'  
O}p<"3Ub  
~P;A 9A(k  
数据胜于雄辩,他对自 2012 年以来 Y-Combinator 孵化的每家公司发布的数据领域职位进行了分析,研究问题包括: ;-;lM6zP  
    YhqMTOw  
    在数据领域,公司最常招聘的职位是什么? ik;F@kdm`  
    人们常讨论的数据科学家的需求究竟有多大? ='m%Iq7X  
    公司看重的这些技能是引发当今数据革命的技能吗? fGRV]6?V  
m7u`r(&  
以下是博客文章的主要内容:  p(8@  
方法 ek0!~v<I  
我选择对 YC 风投公司进行分析,这些公司声称将某种数据作为其价值主张的一部分。 w*;"@2y;eY  
主要关注 YC 是因为其提供了易于搜索(可抓取)的公司目录。此外,作为一个特别有远见的孵化器,它已经为全球众多领域的公司提供投资长达十年之久,我觉得他们为本次分析研究提供了一个具有代表性的市场样本。但请注意,我没有分析超大型科技公司。 ?(z"U b]  
我抓取了自 2012 年以来每家 YC 公司的首页网址,建立起一个包含 1400 家公司的初始池。 =9,^Tu|  
为什么是从 2012 年开始呢?2012 年,AlexNet 在 ImageNet 竞赛中获奖,掀起了如今机器学习和数据建模的热潮,最早的一批数据优先(data-first)公司由此诞生。 * 1xs/$`  
我对初始池执行了关键词过滤,以减少需要浏览的公司量。具体而言,我只考虑了其网站至少包含以下术语之一的公司:AI、CV、NLP、自然语言处理、计算机视觉、人工智能、机器、ML、数据。同时不考虑那些网站链接故障的公司。 J_m@YkK  
这样的操作应该会产生大量错误的结果,我意识到将对各个网站进行更细粒度的手动检查以了解相关角色,因此我尽可能地优先考虑高召回率。 E-FR w  
在这个筛选过的资源池中,我遍历了每个网站,找到了他们发布招聘信息的位置,并记下了标题中包含数据、机器学习、NLP 或 CV 的所有职位。这让我建立了一个来自大约 70 个不同公司的招聘职位的资源池。 N;6o=^ic  
也有点小失误:其中我错过了一些公司,有些网站虽然招聘信息很少,但是其实正在招聘。此外,有些公司没有正式的招聘页面,但而是要求应聘者直接通过电子邮件与他们联系。我忽略了这两种类型的公司,它们不在本次分析研究中。 BMuEfa^  
另一件事是,这项研究的大部分都是在 2020 年的最后几个星期内完成的。随着公司定期更新招聘页面,开放的职位可能已经改变,但我认为这对得出的结论影响不大。 =6"5kz10  
数据从业者应该负责什么? SW'eTG  
在深入研究结果之前,值得花一些时间来搞清楚每种数据领域职位通常负责什么。我将花时间介绍以下四个职位: AS re@pW  
    数据科学家负责在统计和机器学习中使用各种技术来处理和分析数据,通常负责构建模型以探究从某些数据源中能够学到的内容,但模型通常是原型级别而非生产级别;  Pd(_  
    数据工程师负责开发一套强大且可扩展的数据处理工具 / 平台,必须熟悉 SQL / NoSQL 数据库的整理和构建 / 维护 ETL 流水线; uoeZb=<  
    机器学习(ML)工程师通常既负责训练模型,又负责生产模型,他们需要熟悉一些高级 ML 框架,还必须能够轻松构建模型的可扩展训练,推理和部署流水线; mtn^+*  
    机器学习(ML)科学家致力于前沿研究,他们通常负责探索可以在学术会议上发表的新想法。在移交给 ML 工程师进行生产之前,机器学习科学家通常只需要对新的 SOTA 模型进行原型制作。 slUi)@b  
/]MelW  
值得一提的是,与传统数据科学家相比,开放数据工程师的职位增加了不少,在这种情况下,在公司雇用的原始量上,数据工程师比数据科学家多了大约 55%,而机器学习工程师的数量与数据科学家的数量大致相同。但如果查看各个职位的名称,就会发现似乎有些重复。 NY.* S6  
bv b \G  
 0yq  
我只通过合并职位来提供粗略的分类即在不同职位角色负责的内容大致相同的情况下将其合并为一个名称。其中包括以下等价关系集: kc't  
    NLP 工程师≈CV 工程师≈ML 工程师≈深度学习工程师(尽管领域可能不同,但职责大致相同) Y?3tf0t/  
    ML 科学家≈深度学习≈ML 实习生 lG%697P  
    数据工程师≈数据架构师≈数据主管≈数据平台工程师 -)VjjKz]8  
2zW IB[  
评价一下你浏览此帖子的感受

精彩

感动

搞笑

开心

愤怒

无聊

灌水
描述
快速回复

谢谢,别忘了来看看都是谁回帖哦?
验证问题:
.刚刚被蚊子咬完时,涂上 _____ 就不会痒了 正确答案:肥皂
按"Ctrl+Enter"直接提交
上一个下一个