全站首页设为首页收藏本站

西虹市网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

社区广播台

    查看: 94|回复: 6
    打印 上一主题 下一主题

    [时尚美装] 懂得:数据挖掘工程师眼中的利器:Python大数据挖掘分析 ...

    [复制链接]
    跳转到指定楼层
    楼主
    发表于 2022-2-24 13:51:39 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

    西虹网 西虹网  当今常用的数据挖掘建模工具包括SAS Enterprise Miner、IBM SPSS Modeler、SQL Server(Analysis Server)、Python、WEKA、KNIME、RapidMiner和TipDM。数据湖的相关资讯可以到我们网站了解一下,从专业角度出发为您解答相关问题,给您优质的服务!
    西虹网 西虹网

    西虹网 西虹网
    西虹网 西虹网  其中Python作为目前最炙手可热的编程语言,将C++斩于马下,跃居世界编程语言排行榜第三名。数据挖掘工程师如果连Python数据挖掘的工具及使用都不清楚的话,那就真的Out了!
    西虹网 西虹网
    西虹网 西虹网  Python(Matrix Laboratory,矩阵实验室)是美国Mathworks公司开发的应用软件,具备强大的科学及工程计算能力,它不但具有以矩阵计算为基础的强大数学计算能力和分析功能,而且还具有丰富的可视化图形表现功能和方便的程序设计能力。
    西虹网 西虹网
    西虹网 西虹网  Python并不提供一个专门的数据挖掘环境,但它提供非常多的相关算法的实现函数,是学习和开发数据挖掘算法的很好选择。
    西虹网 西虹网
    西虹网 西虹网  今天我们就来讲述一下Python大数据挖掘分析的工具:
    西虹网 西虹网
    西虹网 西虹网  一、Numpy工具
    西虹网 西虹网
    西虹网 西虹网  Python并没有提供数组功能。虽然列表可以完成基本的数组功能,但它不是真正的数组,而且在数据量较大时,使用列表的速度就会慢得让人难以接受。
    西虹网 西虹网
    西虹网 西虹网  为此,Numpy提供了真正的数组功能,以及对数据进行快速处理的函数。Numpy还是很多更高级的扩展库的依赖库,Scipy、Matplotlib、Pandas等库都依赖于它。
    西虹网 西虹网
    西虹网 西虹网  值得强调的是,Numpy内置函数处理数据的速度是C语言级别的,因此在编写程序的时候,应当尽量使用它们内置的函数,避免出现效率瓶颈的现象(尤其是涉及循环的问题)。
    西虹网 西虹网
    西虹网 西虹网  linux安装命令:
    西虹网 西虹网
    西虹网 西虹网  pip install numpy (安装加速的地址请留言获取)
    西虹网 西虹网
    西虹网 西虹网  二、Scipy工具
    西虹网 西虹网
    西虹网 西虹网  Numpy提供了多维数组功能,但它只是一般的数组,并不是矩阵。例如,当两个数组相乘时,只是对应元素相乘,而不是矩阵乘法。
    西虹网 西虹网
    西虹网 西虹网  Scipy提供了真正的矩阵,以及大量基于矩阵运算的对象与函数。Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算,显然,这些功能都是挖掘与建模必备的。Scipy依赖于Numpy,因此安装它之前得先安装Numpy。
    西虹网 西虹网
    西虹网 西虹网  pip install scipy(安装加速的地址请留言获取)
    西虹网 西虹网
    西虹网 西虹网  三、MatPlotlib工具
    西虹网 西虹网
    西虹网 西虹网  不论是数据挖掘还是数学建模,都免不了数据可视化的问题。对于Python来说,Matplotlib是最著名的绘图库,它主要用于二维绘图,当然它也可以进行简单的三维绘图。
    西虹网 西虹网
    西虹网 西虹网  它不但提供了一整套和Matlab相似但更为丰富的命令,让我们可以非常快捷地用Python可视化数据,而且允许输出达到出版质量的多种图像格式。
    西虹网 西虹网
    西虹网 西虹网  pip install matplotlib(安装加速的地址请留言获取)
    西虹网 西虹网
    西虹网 西虹网  四、Pandas工具
    西虹网 西虹网
    西虹网 西虹网  Pandas是Python下最强大的数据分析和探索工具。它包含高级的数据结构和精巧的工具,使得在Python中处理数据非常快速和简单。Pandas构建在Numpy之上,它使得以NumPy为中心的应用很容易使用。
    西虹网 西虹网
    西虹网 西虹网  Pandas的名称来自于面板数据(Panel Data)和Python数据分析(Data Analysis),它最初被作为金融数据分析工具而开发出来,由AQR Capital Management公司于2008年4月开发出来,并于2009年底开源。
    西虹网 西虹网
    西虹网 西虹网  Pandas的功能非常强大,支持类似于SQL的数据增、删、查、改,并且带有丰富的数据处理函数;支持时间序列分析功能;支持灵活处理缺失数据等。
    西虹网 西虹网
    西虹网 西虹网  Pandas基本的数据结构是Series和Data Frame,Series就是序列,类似一维数组;Data Frame则是相当于一张二维的表格,类似二维数组,它的每一列都是一个Series。
    西虹网 西虹网
    西虹网 西虹网  为了定位Series中的元素,Pandas提供了Index对象,每个Series都会带有一个对应的Index,用来标记不同的元素,Index的内容不一定是数字,也可以是字母、中文等,它类似于SQL中的主键。
    西虹网 西虹网
    西虹网 西虹网  ?类似地,Data Frame相当于多个带有同样Index的Series的组合(本质是Series的容器),每个Seiries都带有唯一的表头,用来标识不同的series。
    西虹网 西虹网
    西虹网 西虹网  pip install pandas(安装加速的地址请留言获取)
    西虹网 西虹网
    西虹网 西虹网  pip install xlrd(安装加速的地址请留言获取)
    西虹网 西虹网
    西虹网 西虹网  pip install xlwt(安装加速的地址请留言获取)
    西虹网 西虹网
    西虹网 西虹网  五、StatsModels工具
    西虹网 西虹网
    西虹网 西虹网  pandas着眼于数据的读取、处理和探索,而StatsModels则更加注重数据的统计建模分析,它使得python有了R语言的味道。StatsModels支持与Pandas进行数据交互,因此,它与Pandas结合,成为了Python下强大的数据挖掘组合。
    西虹网 西虹网
    西虹网 西虹网  pip install statsmodels(安装加速的地址请留言获取)
    西虹网 西虹网
    西虹网 西虹网  六、Keras工具
    西虹网 西虹网
    西虹网 西虹网  Keras库搭建神经网络,是基于Theano的强大的深度学习库,利用它不仅仅可以搭建普通的神经网络,还可以搭建各种深度学习模型,如自编码器、循环神经网络、递归神经网络、卷积神经网络等。由于它是基于Theano的,因此速度也相当快。
    西虹网 西虹网
    西虹网 西虹网  Theano也是Python的一个库,用来定义、优化和高效地解决多维数组数据对应数学表达式的模拟估计问题。它具有高效地实现符号分解、高度优化的速度和稳定性等特点,最重要的是它还实现了GPU加速,使得密集型数据的处理速度是CPU的数十倍。
    西虹网 西虹网
    西虹网 西虹网  Linux执行keras快于Windows,工作中建议使用Linux执行keras。
    西虹网 西虹网
    西虹网 西虹网  pip install theano keras(安装加速的地址请留言获取)
    西虹网 西虹网
    西虹网 西虹网  pip install --ignore-installed tensorflow keras(安装加速的地址请留言获取)
    西虹网 西虹网
    西虹网 西虹网  如读者希望在windows环境中搭建Keras可参考下面的安装方法:
    西虹网 西虹网
    西虹网 西虹网  (1)安装Anaconda3-2019.10-Windows-x86_64.exe
    西虹网 西虹网
    西虹网 西虹网  可在anaconda官方下载
    西虹网 西虹网
    西虹网 西虹网  (2)配置path安装路径(假设安装在C:\Anaconda3)
    西虹网 西虹网
    西虹网 西虹网  C:\Anaconda3\condabin
    西虹网 西虹网
    西虹网 西虹网  (3)安装mingw,执行下面3个命令
    西虹网 西虹网
    西虹网 西虹网  conda config --add channels
    西虹网 西虹网
    西虹网 西虹网  (安装加速的地址请留言获取)
    西虹网 西虹网
    西虹网 西虹网  conda config --set show_channel_urls yes
    西虹网 西虹网
    西虹网 西虹网  conda install mingw libpython
    西虹网 西虹网
    西虹网 西虹网  (4)配置path安装路径
    西虹网 西虹网
    西虹网 西虹网  C:\Anaconda3\MinGW\bin
    西虹网 西虹网
    西虹网 西虹网  C:\Anaconda3\MinGW\x86_64-w64-mingw32\lib
    西虹网 西虹网
    西虹网 西虹网  (5)pip install theano keras(安装加速的地址请留言获取)
    西虹网 西虹网
    西虹网 西虹网  如果pip命令无法使用配置path路径指向Python安装目录的Scripts路径
    西虹网 西虹网
    西虹网 西虹网  (6)lindux支持tensorflow,windows支持theano,更改keras默认后台为theano
    西虹网 西虹网
    西虹网 西虹网  修改当前用户下的C:\Users\Administrator\.keras\keras.json,将tensorflow改成theano
    西虹网 西虹网
    西虹网 西虹网  如果找不到该文件在cmd命令中执行
    西虹网 西虹网
    西虹网 西虹网  python
    西虹网 西虹网
    西虹网 西虹网  import keras
    西虹网 西虹网
    西虹网 西虹网  提示不支持tensorflow,此时会创建出keras.json
    西虹网 西虹网
    西虹网 西虹网  或直接使用课件中给出的.keras目录赋值到当前用户目录下
    西虹网 西虹网
    西虹网 西虹网  (7)再次在cmd命令中执行
    西虹网 西虹网
    西虹网 西虹网  看到Using Theano backend则安装成功
    西虹网 西虹网
    西虹网 西虹网  好了,今天的Python大数据挖掘分析的工具就介绍到这里,中培希望对今后从事Phthon大数据挖掘分析工作的小伙伴有一定的帮助!
    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏 转播转播 分享分享
    回复

    使用道具 举报

    沙发
    发表于 2022-4-7 10:02:23 | 只看该作者
    学习了,谢谢分享、、、
    回复 支持 反对

    使用道具 举报

    板凳
    发表于 2022-6-13 11:42:01 | 只看该作者
    没看完~~~~~~ 先顶,好同志
    回复 支持 反对

    使用道具 举报

    地板
    发表于 2022-8-25 19:13:01 | 只看该作者
    不知该说些什么。。。。。。就是谢谢
    回复 支持 反对

    使用道具 举报

    5#
    发表于 2022-10-27 09:40:07 | 只看该作者
    路过,学习下
    回复 支持 反对

    使用道具 举报

    6#
    发表于 2022-12-4 20:38:42 | 只看该作者
    昌平的网上家园 哈哈 平台不错啊
    回复 支持 反对

    使用道具 举报

    7#
    发表于 2022-12-12 18:48:54 | 只看该作者
    不错不错,楼主您辛苦了。。。
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表