西虹市网

标题: 懂得:数据挖掘工程师眼中的利器:Python大数据挖掘分析工具,望周知! [打印本页]

作者: xubin    时间: 2022-2-24 13:51
标题: 懂得:数据挖掘工程师眼中的利器:Python大数据挖掘分析工具,望周知!

  当今常用的数据挖掘建模工具包括SAS Enterprise Miner、IBM SPSS Modeler、SQL Server(Analysis Server)、Python、WEKA、KNIME、RapidMiner和TipDM。数据湖的相关资讯可以到我们网站了解一下,从专业角度出发为您解答相关问题,给您优质的服务!


  其中Python作为目前最炙手可热的编程语言,将C++斩于马下,跃居世界编程语言排行榜第三名。数据挖掘工程师如果连Python数据挖掘的工具及使用都不清楚的话,那就真的Out了!

  Python(Matrix Laboratory,矩阵实验室)是美国Mathworks公司开发的应用软件,具备强大的科学及工程计算能力,它不但具有以矩阵计算为基础的强大数学计算能力和分析功能,而且还具有丰富的可视化图形表现功能和方便的程序设计能力。

  Python并不提供一个专门的数据挖掘环境,但它提供非常多的相关算法的实现函数,是学习和开发数据挖掘算法的很好选择。

  今天我们就来讲述一下Python大数据挖掘分析的工具:

  一、Numpy工具

  Python并没有提供数组功能。虽然列表可以完成基本的数组功能,但它不是真正的数组,而且在数据量较大时,使用列表的速度就会慢得让人难以接受。

  为此,Numpy提供了真正的数组功能,以及对数据进行快速处理的函数。Numpy还是很多更高级的扩展库的依赖库,Scipy、Matplotlib、Pandas等库都依赖于它。

  值得强调的是,Numpy内置函数处理数据的速度是C语言级别的,因此在编写程序的时候,应当尽量使用它们内置的函数,避免出现效率瓶颈的现象(尤其是涉及循环的问题)。

  linux安装命令:

  pip install numpy (安装加速的地址请留言获取)

  二、Scipy工具

  Numpy提供了多维数组功能,但它只是一般的数组,并不是矩阵。例如,当两个数组相乘时,只是对应元素相乘,而不是矩阵乘法。

  Scipy提供了真正的矩阵,以及大量基于矩阵运算的对象与函数。Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算,显然,这些功能都是挖掘与建模必备的。Scipy依赖于Numpy,因此安装它之前得先安装Numpy。

  pip install scipy(安装加速的地址请留言获取)

  三、MatPlotlib工具

  不论是数据挖掘还是数学建模,都免不了数据可视化的问题。对于Python来说,Matplotlib是最著名的绘图库,它主要用于二维绘图,当然它也可以进行简单的三维绘图。

  它不但提供了一整套和Matlab相似但更为丰富的命令,让我们可以非常快捷地用Python可视化数据,而且允许输出达到出版质量的多种图像格式。

  pip install matplotlib(安装加速的地址请留言获取)

  四、Pandas工具

  Pandas是Python下最强大的数据分析和探索工具。它包含高级的数据结构和精巧的工具,使得在Python中处理数据非常快速和简单。Pandas构建在Numpy之上,它使得以NumPy为中心的应用很容易使用。

  Pandas的名称来自于面板数据(Panel Data)和Python数据分析(Data Analysis),它最初被作为金融数据分析工具而开发出来,由AQR Capital Management公司于2008年4月开发出来,并于2009年底开源。

  Pandas的功能非常强大,支持类似于SQL的数据增、删、查、改,并且带有丰富的数据处理函数;支持时间序列分析功能;支持灵活处理缺失数据等。

  Pandas基本的数据结构是Series和Data Frame,Series就是序列,类似一维数组;Data Frame则是相当于一张二维的表格,类似二维数组,它的每一列都是一个Series。

  为了定位Series中的元素,Pandas提供了Index对象,每个Series都会带有一个对应的Index,用来标记不同的元素,Index的内容不一定是数字,也可以是字母、中文等,它类似于SQL中的主键。

  ?类似地,Data Frame相当于多个带有同样Index的Series的组合(本质是Series的容器),每个Seiries都带有唯一的表头,用来标识不同的series。

  pip install pandas(安装加速的地址请留言获取)

  pip install xlrd(安装加速的地址请留言获取)

  pip install xlwt(安装加速的地址请留言获取)

  五、StatsModels工具

  pandas着眼于数据的读取、处理和探索,而StatsModels则更加注重数据的统计建模分析,它使得python有了R语言的味道。StatsModels支持与Pandas进行数据交互,因此,它与Pandas结合,成为了Python下强大的数据挖掘组合。

  pip install statsmodels(安装加速的地址请留言获取)

  六、Keras工具

  Keras库搭建神经网络,是基于Theano的强大的深度学习库,利用它不仅仅可以搭建普通的神经网络,还可以搭建各种深度学习模型,如自编码器、循环神经网络、递归神经网络、卷积神经网络等。由于它是基于Theano的,因此速度也相当快。

  Theano也是Python的一个库,用来定义、优化和高效地解决多维数组数据对应数学表达式的模拟估计问题。它具有高效地实现符号分解、高度优化的速度和稳定性等特点,最重要的是它还实现了GPU加速,使得密集型数据的处理速度是CPU的数十倍。

  Linux执行keras快于Windows,工作中建议使用Linux执行keras。

  pip install theano keras(安装加速的地址请留言获取)

  pip install --ignore-installed tensorflow keras(安装加速的地址请留言获取)

  如读者希望在windows环境中搭建Keras可参考下面的安装方法:

  (1)安装Anaconda3-2019.10-Windows-x86_64.exe

  可在anaconda官方下载

  (2)配置path安装路径(假设安装在C:\Anaconda3)

  C:\Anaconda3\condabin

  (3)安装mingw,执行下面3个命令

  conda config --add channels

  (安装加速的地址请留言获取)

  conda config --set show_channel_urls yes

  conda install mingw libpython

  (4)配置path安装路径

  C:\Anaconda3\MinGW\bin

  C:\Anaconda3\MinGW\x86_64-w64-mingw32\lib

  (5)pip install theano keras(安装加速的地址请留言获取)

  如果pip命令无法使用配置path路径指向Python安装目录的Scripts路径

  (6)lindux支持tensorflow,windows支持theano,更改keras默认后台为theano

  修改当前用户下的C:\Users\Administrator\.keras\keras.json,将tensorflow改成theano

  如果找不到该文件在cmd命令中执行

  python

  import keras

  提示不支持tensorflow,此时会创建出keras.json

  或直接使用课件中给出的.keras目录赋值到当前用户目录下

  (7)再次在cmd命令中执行

  看到Using Theano backend则安装成功

  好了,今天的Python大数据挖掘分析的工具就介绍到这里,中培希望对今后从事Phthon大数据挖掘分析工作的小伙伴有一定的帮助!
作者: 厉烨    时间: 2022-4-7 10:02
学习了,谢谢分享、、、
作者: 鹤临江    时间: 2022-6-13 11:42
没看完~~~~~~ 先顶,好同志
作者: 虹雨    时间: 2022-8-25 19:13
不知该说些什么。。。。。。就是谢谢
作者: 虹雨    时间: 2022-10-27 09:40
路过,学习下
作者: 纸上谈兵    时间: 2022-12-4 20:38
昌平的网上家园 哈哈 平台不错啊
作者: 欧华热线    时间: 2022-12-12 18:48
不错不错,楼主您辛苦了。。。




欢迎光临 西虹市网 (http://bbs.xihong021.cn/) Powered by Discuz! X3