2018年数据科学和机器学习调查:Python完胜R语言,Hadoop被抛弃!

  近日,数据科学网站KDnuggets发布 2018年数据科学和机器学习工具调查结果。下面一起来看看调查结果

  最受青睐的分析、数据科学、机器学习工具

2018年数据科学和机器学习调查:Python完胜R语言,Hadoop被抛弃!

  图1:2018年的最受青睐的工具及其在2016 - 2017年调查中的份额

  *为了更有效的比较,KDnuggets重新计算了2016年,2017年问卷调查结果,排除了受访者“单一”的选项。

  下表是前11名的工具排行,其中每个工具至少有20%的份额:

  表1:KDnuggets2018年顶级分析/数据科学/ ML软件调查

  在这里,“ 2018%share ”是指使用该工具的受访者百分比,“ %change 2018 VS 2017 ”是表示2017年调查的变化 ,用绿色表示增长幅度达到10%以上,红色表示下降幅度达到10%以上。

  今年,每名受访者的平均使用工具数量为7个,略高于2017年投票中的6.75(不包括单一工具回复)。

  与2017年软件投票相比,今年前11名中,出现了一个新面孔Keras,Keras取代了去年Knime的位置。下面是针对以上数据的一些观察发现:

  python消灭了R

  到2017年,Python已经拥有超过50%的份额,如今已经将其份额提高到66%,而在我们此次的调查中,R份额首次出现下降,而且是一下子降到50%以下。

  RapidMiner激增

  在过去的几次调查中,RapidMiner一直是最大的数据科学平台之一,它的份额从2017年的33%大幅增加到50%左右。

  这样的增长速度是否是因为厂商的推广带来的呢?RapidMiner创始人兼总裁Ingo Mierswa的表示:

  与许多供应商一样,RapidMiner通过多种渠道向用户推广KDnuggets问卷调查,之前我们也做过同样的推广,但与之前不同的是,首先今年得到了更好的回应,超过400位用户亲自回复了邮件,更重要的是,最近一年里,RapidMiner的月活跃用户增长了300% ,因此可以向更多的用户发送了关于KDnuggets问卷调查的邮件。

  SQL是稳定的

  SQL(包括Spark SQL和SQL to hadoop工具在内)在最近的3次调查中仍然占有约40%的份额。所以,如果你是一位有抱负的数据科学家,学习SQL吧,它可能会对你很有用!

  趋势

  在调查中,使用率超过2%的新工具是Spark SQL,拥有11.7%的份额。

  下表列出了2018年份额增长20%以上的工具,并在2018年达到至少3%的份额。

  表 2:使用率增幅最大的主要分析/数据科学/机器学习工具

  整合

  值得一提的是,在2017年拥有2%以上份额的56个工具中,有19个(仅约三分之一)工具在2018年份额有所增加,而有37个的份额下降。结合Datawatch收购Angoss,Minitab收购Salford等近期的收购案可以表明, 数据科学平台的整合即将展开。

  2018年拥有3%以上份额,却在2018年份额下降25%以上的工具见下表:

  表 3:使用率跌幅最大的主要分析/数据科学工具

  深度学习工具

  使用深度学习工具的受访者比例保持稳定,2018年有33%的受访者表示使用深度学习工具,2017年为32%,2016年为18%。 谷歌Tensorflow依然是最主要的平台。

  顶级深度学习工具排名如下:

  ● Tensorflow, 29.9%

  ● Keras, 22.2%

  ● PyTorch, 6.4%

  ● Theano, 4.9%

  ● Other Deep Learning Tools, 4.9%

  ● DeepLearning4J, 3.4%

  ● Microsoft Cognitive Toolkit (Prev. CNTK), 3.0%

  ● Apache MXnet, 1.5%

  ● Caffe, 1.5%

  ● Caffe2, 1.2%

  ● TFLearn, 1.1%

  ● Torch, 1.0%

  ● Lasagne, 0.3%

  大数据工具:Hadoop被抛弃

  2018年,约33%的开发者使用Hadoop或Spark等大数据工具 - 与2017年大致相同,但Hadoop使用率显著下降,下降幅度高达35%,以下是详细信息:

  编程语言

  Python似乎不仅超过了R,还包括大多数其他语言,目前Python和SQL,Java和C / C ++几乎保持在相同水平。自从KDnuggets 进行这项调查以来,R第一次出现了下降。其他语言同样也有所下降。

  以下是按热门度排序的主要编程语言:

  ● Python, 65.6% (was 59.0% in 2017), 11% up

  ● R, 48.5% (was 56.6%), 14% down

  ● SQL, 39.6% (was 39.2%), 1% up

  ● Java, 15.1% (was 15.5%), 3% down

  ● Unix, shell/awk/gawk, 9.2% (was 10.8%), 15% down

  ● Other programming and data languages, 6.9%, (was 7.6%), -9% down

  ● C/C++, 6.8%, (was 7.1%), 3% down

  ● Scala, 5.9%, (was 8.3%), 29% down

  ● Perl, 1.0% (was 1.9%), 46% down

  ● Julia, 0.7% (was 1.2%), 45% down

  ● Lisp, 0.3% (was 0.4%), -25% down

  ● Clojure, 0.2% (was 0.3%), -38% down

  ● F, # 0.1% (was 0.5%), -73% down

  完整结果和 3 年来的趋势

  以下表格展示了调查结果的细节(此处仅列出排名前 20 的工具):

2018年数据科学和机器学习调查:Python完胜R语言,Hadoop被抛弃!

2018年数据科学和机器学习调查:Python完胜R语言,Hadoop被抛弃!
主题: HadoopSQL深度学习数据SparkJavaPythonPerlScalaClojure
tags: was,down,工具,SQL,份额,Python,RapidMiner,KDnuggets,调查,数据,Hadoop,学习
分页:12
转载请注明
本文标题:2018年数据科学和机器学习调查:Python完胜R语言,Hadoop被抛弃!
本站链接:https://www.codesec.net/view/577236.html


1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
技术大类 技术大类 | 大数据技术 | 评论(0) | 阅读(132)