xubin 发表于 2022-4-19 14:25:52

数据挖掘工程师眼中的利器:Python大数据挖掘分析工具,望周知!


  当今常用的数据挖掘建模工具包括SAS Enterprise Miner、IBM SPSS Modeler、SQL Server(Analysis Server)、Python、WEKA、KNIME、RapidMiner和TipDM。室内定位导航的其他知识和内容也可以到网站具体了解一下,我们是领域内专业的企业平台,欢迎您的关注和了解!
https://www.fengmap.com/uploads/allimg/20211224/1-2112241Z12a96.jpg

  其中Python作为目前最炙手可热的编程语言,将C++斩于马下,跃居世界编程语言排行榜第三名。数据挖掘工程师如果连Python数据挖掘的工具及使用都不清楚的话,那就真的Out了!

  Python(Matrix Laboratory,矩阵实验室)是美国Mathworks公司开发的应用软件,具备强大的科学及工程计算能力,它不但具有以矩阵计算为基础的强大数学计算能力和分析功能,而且还具有丰富的可视化图形表现功能和方便的程序设计能力。

  Python并不提供一个专门的数据挖掘环境,但它提供非常多的相关算法的实现函数,是学习和开发数据挖掘算法的很好选择。

  今天我们就来讲述一下Python大数据挖掘分析的工具:

  一、Numpy工具

  Python并没有提供数组功能。虽然列表可以完成基本的数组功能,但它不是真正的数组,而且在数据量较大时,使用列表的速度就会慢得让人难以接受。

  为此,Numpy提供了真正的数组功能,以及对数据进行快速处理的函数。Numpy还是很多更高级的扩展库的依赖库,Scipy、Matplotlib、Pandas等库都依赖于它。

  值得强调的是,Numpy内置函数处理数据的速度是C语言级别的,因此在编写程序的时候,应当尽量使用它们内置的函数,避免出现效率瓶颈的现象(尤其是涉及循环的问题)。

  linux安装命令:

  pip install numpy (安装加速的地址请留言获取)

  二、Scipy工具

  Numpy提供了多维数组功能,但它只是一般的数组,并不是矩阵。例如,当两个数组相乘时,只是对应元素相乘,而不是矩阵乘法。

  Scipy提供了真正的矩阵,以及大量基于矩阵运算的对象与函数。Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算,显然,这些功能都是挖掘与建模必备的。Scipy依赖于Numpy,因此安装它之前得先安装Numpy。

  pip install scipy(安装加速的地址请留言获取)

  三、MatPlotlib工具

  不论是数据挖掘还是数学建模,都免不了数据可视化的问题。对于Python来说,Matplotlib是最著名的绘图库,它主要用于二维绘图,当然它也可以进行简单的三维绘图。

  它不但提供了一整套和Matlab相似但更为丰富的命令,让我们可以非常快捷地用Python可视化数据,而且允许输出达到出版质量的多种图像格式。

  pip install matplotlib(安装加速的地址请留言获取)

  四、Pandas工具

  Pandas是Python下最强大的数据分析和探索工具。它包含高级的数据结构和精巧的工具,使得在Python中处理数据非常快速和简单。Pandas构建在Numpy之上,它使得以NumPy为中心的应用很容易使用。

  Pandas的名称来自于面板数据(Panel Data)和Python数据分析(Data Analysis),它最初被作为金融数据分析工具而开发出来,由AQR Capital Management公司于2008年4月开发出来,并于2009年底开源。

  Pandas的功能非常强大,支持类似于SQL的数据增、删、查、改,并且带有丰富的数据处理函数;支持时间序列分析功能;支持灵活处理缺失数据等。

  Pandas基本的数据结构是Series和Data Frame,Series就是序列,类似一维数组;Data Frame则是相当于一张二维的表格,类似二维数组,它的每一列都是一个Series。

  为了定位Series中的元素,Pandas提供了Index对象,每个Series都会带有一个对应的Index,用来标记不同的元素,Index的内容不一定是数字,也可以是字母、中文等,它类似于SQL中的主键。

  ?类似地,Data Frame相当于多个带有同样Index的Series的组合(本质是Series的容器),每个Seiries都带有唯一的表头,用来标识不同的series。

  pip install pandas(安装加速的地址请留言获取)

  pip install xlrd(安装加速的地址请留言获取)

  pip install xlwt(安装加速的地址请留言获取)

  五、StatsModels工具

  pandas着眼于数据的读取、处理和探索,而StatsModels则更加注重数据的统计建模分析,它使得python有了R语言的味道。StatsModels支持与Pandas进行数据交互,因此,它与Pandas结合,成为了Python下强大的数据挖掘组合。

  pip install statsmodels(安装加速的地址请留言获取)

  六、Keras工具

  Keras库搭建神经网络,是基于Theano的强大的深度学习库,利用它不仅仅可以搭建普通的神经网络,还可以搭建各种深度学习模型,如自编码器、循环神经网络、递归神经网络、卷积神经网络等。由于它是基于Theano的,因此速度也相当快。

  Theano也是Python的一个库,用来定义、优化和高效地解决多维数组数据对应数学表达式的模拟估计问题。它具有高效地实现符号分解、高度优化的速度和稳定性等特点,最重要的是它还实现了GPU加速,使得密集型数据的处理速度是CPU的数十倍。

  Linux执行keras快于Windows,工作中建议使用Linux执行keras。

  pip install theano keras(安装加速的地址请留言获取)

  pip install --ignore-installed tensorflow keras(安装加速的地址请留言获取)

  如读者希望在windows环境中搭建Keras可参考下面的安装方法:

  (1)安装Anaconda3-2019.10-Windows-x86_64.exe

  可在anaconda官方下载

  (2)配置path安装路径(假设安装在C:\Anaconda3)

  C:\Anaconda3\condabin

  (3)安装mingw,执行下面3个命令

  conda config --add channels

  (安装加速的地址请留言获取)

  conda config --set show_channel_urls yes

  conda install mingw libpython

  (4)配置path安装路径

  C:\Anaconda3\MinGW\bin

  C:\Anaconda3\MinGW\x86_64-w64-mingw32\lib

  (5)pip install theano keras(安装加速的地址请留言获取)

  如果pip命令无法使用配置path路径指向Python安装目录的Scripts路径

  (6)lindux支持tensorflow,windows支持theano,更改keras默认后台为theano

  修改当前用户下的C:\Users\Administrator\.keras\keras.json,将tensorflow改成theano

  如果找不到该文件在cmd命令中执行

  python

  import keras

  提示不支持tensorflow,此时会创建出keras.json

  或直接使用课件中给出的.keras目录赋值到当前用户目录下

  (7)再次在cmd命令中执行

  看到Using Theano backend则安装成功

  好了,今天的Python大数据挖掘分析的工具就介绍到这里,中培希望对今后从事Phthon大数据挖掘分析工作的小伙伴有一定的帮助!

帅气晓维 发表于 2022-6-18 10:31:14

学习了,谢谢分享、、、

五龙闹海 发表于 2022-9-28 12:01:34

路过,支持一下啦

网路采风 发表于 2022-12-20 19:33:04

没看完~~~~~~ 先顶,好同志

樱桃小犊子 发表于 2023-1-5 18:26:46

为自己家乡的社区网贡献点力量,回个帖子

一生何求 发表于 2023-1-13 17:19:15

相当不错,感谢楼主无私分享精神!

国家 发表于 2023-1-20 19:32:02

真是 收益 匪浅
页: [1]
查看完整版本: 数据挖掘工程师眼中的利器:Python大数据挖掘分析工具,望周知!