内容简介
本书是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章,每章介绍一到两个 Python 数据科学中的重点工具包。
- 第1章 从 IPython 和 Jupyter 开始,它们提供了数据科学家需要的计算环境;
- 第2章讲解能提供 ndarray 对象的 NumPy,它可以用 Python 高效地存储和操作大型数组;
- 第3章主要涉及提供 DataFrame 对象的 Pandas,它可以用 Python 高效地存储和操作带标签的/列式数据;
- 第4章的主角是 Matplotlib,它为 Python 提供了许多数据可视化功能;
- 第5章以 Scikit-Learn 为主,这个程序库为最重要的机器学习算法提供了高效整洁的 Python 版实现。
本书适合有编程背景,并打算将开源 Python 工具用作分析、操作、可视化以及学习数据的数据科学研究人员。
Jake VanderPlas,Python 科学栈深度用户和开发者,尤其擅长 Python 科学计算和数据可视化,是 altair 等可视化程序库的创建人,并为 Scikit-Learn、IPython 等 Python 程序库做了大量贡献。现任美国华盛顿大学 eScience 学院物理科学研究院院长。
本书内容
译者序
本书主要介绍了 Python 在数据科学领域的基础工具,包括 IPython、Jupyter、NumPy、Pandas、Matplotlib 和 Scikit-Learn。当然,数据科学并非 Python 一家之“言”,Scala、Java、R、Julia 等编程语言在此领域都有各自不同的工具。至于要不要学 Python,我们认为没必要纠结,秉承李小龙的武术哲学即可——Absorb what is useful, discard what is not, and add what is uniquely your own(取其精华,去其糟粕,再加点自己的独创)。Python 的语法简洁直观、易学易用,是表现力最强的编程语言,学会它就可以让计算机跟随思想,快速完成许多有趣的事情。同时,它也是备受欢迎的胶水语言,许多由 Java、C/C++ 语言开发的工具都会提供 Python 接口,如 Spark、H2O、TensorFlow 等。2017 年 3 月 6 日,PyPI(https://pypi.python.org/pypi) 站上的程序包数量就已经达到 10 万,新的程序包还在不断地涌现,数据科学目前是 Python 星球最酷炫的风景之一。如果数据科学问题让你心有挂碍,那么 Python 这根数据科学的蛇杖(Asklēpiós,阿斯克勒庇俄斯之杖,医神手杖,医院的徽章)可以为你指点迷津。
前言
什么是数据科学
这是一本介绍 Python 数据科学的书。可能话音未落,你脑海中便会浮现一个问题:什么是数据科学(data science)给这个术语下个定义其实很困难,尤其它现在还那么流行(自然也众口难调)。批评者们要么认为它是一个多余的标签(毕竟哪一门科学不需要数据呢),要么认为它是一个粉饰简历、吸引技术招聘者眼球的噱头。
我认为这些批评都没抓住重点。如果去掉浮华累赘的装饰,数据科学可能算是目前为止对跨学科技能的最佳称呼,在工业界和学术界的诸多应用中扮演着越来越重要的角色。跨学科是数据科学的关键;我认为,如今对数据科学最合理的定义,就是 Drew Conway 于 2010 年 9 月在自己的博客上首次发表的数据科学维恩图(如图 0-1 所示)。
Safari(原来叫 Safari Books Online)是面向企业、政府、教育从业者和个人的会员制培训和参考咨询平台。
我们向会员开放成千上万本图书以及培训视频、学习路线、交互式教程和专业视频。这些资源来自 250 多家出版机构,其中包括 O’Reilly Media、Harvard Business Review、Prentice Hall Professional、Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit Press、Adobe、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、Jones & Bartlett 和 Course Technology。
更多信息,请访问 http://oreilly.com/safari。
联系我们
请把对本书的评价和问题发给出版 。
美国:
O’Reilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
中国:
北京市西城区西直门南大街 2 成铭大厦 C 座 807 室(100035)
奥莱利技术咨询(北京)有限公司
O’Reilly 的每一本书都有专属 页,你可以在那儿找到本书的相关信息,包括勘误表、示例代码以及其他信息。本书的 站地址是:
http://bit.ly/python-data-sci-handbook
对于本书的评论和技术性问题,请发送电子邮件到:bookquestions@oreilly.com
要了解更多 O’Reilly 图书、培训课程、会议和新闻的信息,请访问以下 站:
http://www.oreilly.com
我们在 Facebook 的地址如下:
http://facebook.com/oreilly
请关注我们的 Twitter 动态:
http://twitter.com/oreillymedia
我们的 YouTube 视频地址如下:
http://www.youtube.com/oreillymedia
第1章 IPython:超越 Python
第2章 NumPy 入门(一)
第2章 NumPy 入门(二)
第3章 Pandas 数据处理(一)
第3章 Pandas 数据处理(二)
第3章 Pandas 数据处理(三)
第4章 Matplotlib 数据可视化(一)
第4章 Matplotlib 数据可视化(二)
第4章 Matplotlib 数据可视化(三)
第5章 机器学习(一)
第5章 机器学习(二)
第5章 机器学习(三)
阅读全文: http://gitbook.cn/gitchat/geekbook/5bd687dd8b3f803a63efa079
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览208609 人正在系统学习中 相关资源:吉大软件工程学硕考研专业课.zip_吉林大学考研专业课-专业指导…
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!