编辑

数据分析语言工具 介绍材料


语言一览

在这么多年在于数据和程序打交道的过程中,逐渐总结出一些适合用于数据分析的语言,列举如下:

  1. Quantum
  2. R
  3. Python
  4. SQL
  5. Excel
  6. Scala

当然还有其他的比如:SPSS、SAS等,只是他们更偏向于界面操作,而不是作为一个语言,所以不适合使用。

那是不是上面的都可以用呢?是的,就目前的了解,上面列举的六门语言都能够在一定程度上完成工作上需要的数据分析工作。具体能做什么不能做什么,有什么优劣下面会逐一讲。那为什么要列这么多,而不是用一门或着两门来完成?即时是大公司也只会倾向于少而不是多。这里我的解释是:每一门语言既然能存在,那就有它的优势,本着一种开放包容的态度,无论你喜欢哪一门语言,我们都会赞成和鼓励,让你尽情发挥他的优势,这样才能最好最有效率的完成工作,当然,也不是真的所有语言都可以,如果它的发展不适合工作需要,那肯定还是会反对的;至于大公司倾向于一门语言,个人认为更多的是因为管理的需要而不是效率,因为代码量太大了,各种语言的乱入维护是个大麻烦。

Quantum

这个是我进公司所学的第一门实用型语言,现在也是公司用得最多的。

优势

劣势

所以,曾经想的最好的解决方案是重新编写一个Quantum语言解释器,将码位改为题号,如后直连数据库,后来觉得工程太大,实力不足,所以放弃了。

R

R语言,开源、自由软件,跨平台(Linux/Windows/Mac等),具备统计学特性(统计学家发明的),广泛用于统计分析、绘图、数据挖掘,是一门专业的数据分析语言,发展潜力很大。对比产品:SPSS、SAS、MATLAB。

优势

劣势

Python

一门开源且流行的通用性解释语言,应用范围广,Linux发行版默认安装,与Shell同为服务器运维基础工具。脚本式运行,什么意思呢?写好代码双击直接运行,还有一个很有意思的特性:强制缩进。扩展包超多,有良好的数据分析包可供工作使用。

优势

劣势

SQL

这个不用多做介绍了,数据库的基础,仅仅列一下优劣

优势

劣势

Excel

这个可能很多人不理解,为什么列到这里,其实列在这里更多是一种无奈,MS Office垄断了市场,基本上,我们工作上的统计报告,都要准备一份Excel格式,无法避免,既然无法避免,何不直接用Excel好了?省得用其他语言写程序

优势

劣势

Scala

这个不熟,列在这里是充数的,不确定是否能用于数据分析,Spark平台适用Scala,不详细介绍了

相关词条