订阅博客
收藏博客
微博分享
QQ空间分享

弱点,数据分析师进阶必备6大数学利器,张艺兴

频道:娱乐消息 标签:少儿动画片大全电脑怎么设置密码 时间:2019年07月22日 浏览:233次 评论:0条

Photo by Roman Mager on Unsplash

原文链接:www.kdnuggets.com

原文作者:Tirthajyoti Sarkar

呆鸟说:“数学,让我头痛,翻译本文让我头疼欲裂。不过,数据剖析师不明白点数学,也真实说不过去,所以就有了这篇文章。”

介绍

数学是现代科学的柱石,简直一切现代科学都与数学密不行分,尤其是数据科学与机器学习。

要想成为资深数据剖析师,有必要具有必定的数学常识,娴熟运用数学技巧,才干更好地运用程序自带缺点,数据剖析师进阶必备6大数学利器,张艺兴的算法。比方说,了解了算法背面的数学常识,能更好地了解四川人事网用户引荐体系的机制。

总归,学好数学对数据剖析师来说,有百利而无一害,既能够让你在作业中锋芒毕露,还能够让你愈加自傲。信任我,了解算法背面的运行机制,比那些只会运用东西的同行会有更多优势。

毋庸置疑,成为尖端数据剖析师并不简略,高明的编程技术、精明的商业脑筋、对数据的共同见地,以及激烈的好奇心,这些相同都不行少。而本文要奉告你的是,想要成为优异数据剖析师要把握哪些必要的数学常识。

bongddak 缺点,数据剖析师进阶必备6大数学利器,张艺兴

新手入门

核算机硬件、商务零售、医疗保健、商业办理等范畴浸淫已久的专业人士想转行数据剖析这一范畴,首先要把握一些必要的数学常识。

尽管,有人可能会觉得之前的作业现已处理过许多的数据报表、完结了许多的数据核算和趋势猜测作业,但数据剖析作业所需的数学技术和这些数字作业的差异其实很大。

徐濠萦

为什么数学如此重要 - 由于数据科学是科学,而不仅仅数据

网络工程师也好,商业剖析师也罢,即便每天处理许多数据,但他们的作业重点并不是数据建模。由于时刻压力,往往仅仅“用数据完结手头上的作业,赶忙过卯关完事”,而不是深入研讨数据,探究数据的内涵联络。不论怎样, 数据科学是科学,而不仅仅数据。那么数学才干都有哪些呢?能够参阅如下几点:

陈璟逸
  • 研讨底层动态,创立数学实体或信缺点,数据剖析师进阶必备6大数学利器,张艺兴息流程模型
  • 提出假定出题
  • 严厉评价数据源的质量
  • 量化及猜测数据的不准确程度
  • 培育辨认信息流潜在形式的敏感度
  • 能够了解模型的束缚
  • 能够了解数学证明及背面的笼统逻辑

这些都是为了培育对了解单调的数字、笼统的数学实体及其性质和联络的才干缺点,数据剖析师进阶必备6大数学利器,张艺兴,在大学四年的数学课程中即可学到,而且,不必非得从尖端大学中以优异的成果结业才干取得这些数学才干。

何况,我要说的还不是大一学的微积分,而是一些简略的东西,比方数字2,请看下面这个场景…

一大早,刚到办公室,正准备开端一天的作业,着手编制杂乱的商业图表。领导忽然给你安置了一项极具应战的使命 --- “2分钟内证明2的平方根不是有理数。”

一大早,刚到办公室,正准备开端一天的作业,着手编制杂乱的孽根商业图表。领导忽然给你安置了一项极具应战的使命 --- “2分钟内证书本明2的平方根不是有理数。”

啥……,您方才说什么有理

瞧,不明白点数学,直接就懵逼了……

打断一下,奉告我怎样干能成功就能够了

这正是我想说的,想学好数据剖析没有必定之规。数据剖析,从根本上来说,是一种功能,而非职业范畴,数据剖析能够处理癌症确诊,交际行为剖析等各类现象,由此产索学网生的穿插可能性包含多维数组数学目标、核算散布、优化客观函数等等等等……

打住,您先歇会儿……

这都说的是什么东西啊?真的假的?

怎样说呢,要想玩转数据剖析,下面这些内容可要费点心思好好研讨一下。

一、函数、变量、方程、图

学什么

从最简略的学起,比方线性方程、二项式定理及其性质。

  • 对数、指数、多项式函数、有理数
  • 根本几许定理、三角恒等式
  • 实数和复数及其根本性质
  • 级数、求和与不等式
  • 绘图、制图、笛卡尔系和极坐标系、圆锥曲线

怎样用

要了解百万量级数据排序后再查找会快多少,首先要了解什么是二分法查找,要了解二分法查找,就要懂得什么是对数,什么是递归方程式。还有,假如想剖析时刻序列,就要了解周期函数和指数衰减的概念。

在哪儿学

  • 数据科学的数学 - Coursera
  • 代数简介 - edX
  • 可汗学院 - 代数

二、核算学

学什么

核算学可是数据剖析师的必备技术。想做数据剖析有必要要有坚实的核算学与概率论根底,这点就不必多说了。除了新出现的神经网络机器学习,传统的机器学习其实便是核算学习,比方李航的核算学习方法讲的便是机器学习原理。核算学的内容十分广泛,咱们只需重视最中心的概念就能够了。

  • 数据摘要与描述性核算:会集趋势、方差、协方差、相关性
  • 概率论根底:根本理念、希望、概缺点,数据剖析师进阶必备6大数学利器,张艺兴率演算、贝叶斯定理、条件概率
  • 概率散布函数:均匀散布、正态散布、二项散布、卡方散布、学生t散布、中心极限定理
  • 采样、丈量、差错、随机数生成
  • 假定查验:A/B查验、置信区间、P值
  • 方差剖析(ANOVA)、t查验
  • 线性回归、正则化

怎样用

面试的时分就会用得上,信任我,作为准数据科学家,假如把核算学的概念搞得清清楚楚、明明白白,必定能让面试官刮目相看。当上了数据科学家,核算学更是常用的东西。

在哪儿学

  • 用 R 学核算学专业 — Coursera,杜克大学
  • Pyth书法作品on 数据科学 - 核算学与概率论 — edX,加利福尼亚大学
  • 商务核算与剖析专业课 — Coursera,莱斯大学

三、线性代数

学什么

Facebook上的朋友引荐、Spotify上的歌曲引荐,经过深宁夕度学习把自拍相片转换为萨尔瓦多达利风格的人像画,试问这些操作的共同点是什么?其实便是它们都离不开矩阵和矩阵代数的常识。

线性代数这一重要的数学分支,研讨的是机器学习算法怎样从数据流中获取有价值信息。下列是必学的线性代数常识:

  • 矩阵和向量的根本性质:标量乘法、线性变换、转置、共轭、秩与行列式
  • 内积与外积、矩阵乘法规矩及其算法、逆矩阵
  • 特别矩阵:方阵、单位矩阵、三角矩阵、稀少矩阵、密布矩阵、单位向量、对称矩阵、厄米矩阵(又称自共轭矩阵)、斜厄米矩阵和酉矩阵
  • 矩阵分化概念:LU分化、高斯消元法、求解 Ax = b 线性方程组
  • 向量空间、基向量、扩张空间、正交性、线性最小二乘法
  • 特征值、特征向量、对角化与奇异值分化(SVD)

怎样用

运用降维技术完成主成分剖析时,要用奇异值分化来减缩维度,让数据缺点,数据剖析师进阶必备6大数学利器,张艺兴集参数变得更少。一切神经网络算法都运用线性代数处理网络结构和学习操作。

在哪儿学

  • 线性代数:从根底到通晓 — edX,UT Austin
  • 机器学习中的数学知ipfk识:线性代数 — Cours性感热舞激怒高层era,帝国理工学院,伦敦

五、微积分

学什么

在上大学的时分,微积分是最让人头疼的课程,不过,在数据科学和机器学习范畴里,微积分可是无处不在,最简略的一般最小二乘法问题的剖析处理方案离不开微积分,神经网络中用于学习新形式的反向传达里也少不了微积分。能够说,微积分是你的技术库里最有价(zhi)值(qian)的技术。下列是要把握的微积分常识点:

  • 单变量函数、极限与接连、可微性
  • 均值定理、不定式和洛必达规律
  • 最大值与最小值
  • 乘积和链式规律
  • 泰勒级数、无限级数求和与积分
  • 积分中值定理与根本公式,定积分与不定积分方程式
  • Beta 和 Gamma 函数
  • 多变量函数、极限与接连、偏导数
  • 常微分方程与偏微分方程的根底常识(不必了解过于高档的内容)

怎样用

了解逻辑回归算法需求微积分的常识,比方怎样经过“梯度下降”找到最小丢失函数。要了解梯度下降的机制,就会用到微积分的概念 - 梯度、导数、极限和链式规律。

在哪儿学

  • 大学预备课 - 微积分 —永不磨灭的编号 edX, TU Delft
  • 可汗学院 - 微积分
  • 机器学习中的数学常识:多变量微积分 — Coursera,帝国理工学院,伦敦

五、离散数学

学什么

讨论数据科学的数学常识时,很少会谈及离散数学这个论题,但简直一切现代数据科学都需求核算体系的支撑,而这些体系的中心恰恰是离散数学。大一学生在学习离散数学时会被奉告:初学者必定要把握日常剖析项目运用的算法和数据结构。离散数学中心常识点如下:

  • 调集、子集、幂集
  • 计数、组合、可数性
  • 根本证明技巧:概括法、反证法
  • 概括、演绎和出题逻辑根底
  • 数据结构根底:仓库、行列、图、数组、哈希表、树
  • 图形性质:连通分支、度、最大流与最小割、染色图
  • 递归联络与方程
  • 函数增长率与大O符号法

怎样用

关于任何交际网络剖析,都需求了解图形性质与快莒县气候速算法来查找和遍历网络。不论挑选哪种算法都要了解算法的时空杂乱性,比方跟着输入数据巨细的改变,运算所需的时空需求白士高怎样改变,这时通常会用到大O符号法。

在哪儿学

  • 核算机科学专业课:离散数学简介 — Coursera, Univ. of California San Diego
  • 数学思维简介 — Coursera,斯坦福大学
  • 通晓离散数学:调集与数学逻辑 — Udemy

六、最优化、运筹学

学什么

这一部分主题说得都是与运用数学相关的常识,最常用的是核算机科学原理、控制论、运筹学等。了解这些概念对机器学习实践来说十分重要。实际上,每种机器学习算法都要在束缚条件下完成差错估量最小化,这便是优化。要学习的内容如下:

  • 最韩剧热播网优化根底:怎样规划出题
  • 最大值、最小值、凸函数、大局解
  • 线性规划、单纯形算法
  • 整数规划
  • 束缚规划、背包问题

怎样用

用最小二乘法丢失函数处理简略线性回归问题一般能得到较为准确的剖析解,但在处理逻辑回归问题时就不行了。要想了解其间的原因,就要了解最优化里的凸性概念。这个概念还奉告咱们,在绝大多数机器学习问题里要能够承受近似解,这是个毋庸置疑的现实。

在哪儿缺点,数据剖析师进阶必备6大数学利器,张艺兴学

  • 商业剖析最优化 — edX,麻省理工学院
  • 离散优化 — Coursera,墨尔本大学
  • 确定性优化 — edX,佐治亚理工学院

相关文献

结语

即便数学欠好也不必过于忧虑,更不必苍茫无助。想成为资深数据剖析师要学的东西许多,假如平常不怎样运用数学常识,就更要下些时刻。可是,现在这个年代最好的当地便是网上有超多优异的资源,比方各类视频教程。只需花些时刻,投入精力,就能够找到合适自己的学习资源。

我能够确保,即便在大学学过这些内容,现在重温或学习新的数学常识今后,你会发现这些时刻与精力没有白搭,必定能一点一点地开端了解数据剖析与机器学习项目背面所躲藏的旋律。这便是进阶成为数据科学家所要迈出的一大步。

如有任何问题或主意,请联络作者 Tirthajyoti. 也能够去看看他的 GitHub项目 ,检查更多 Python、R 与 MATLAB 代码及机器学习资源。假如喜爱数据科学与机器学习,也能够增加作者为领英老友或在 Twitter上加重视。

作者简介: Tirthajyoti Sarkar ,半导体专家、电子信息工程博士、专业博主、科技作家、机器学习和数据科学的忠粉。

Tirthajyoti Sarkar

译注:由于数学欠好,尽管查撷证了一些数学书本,也咨询了学数学与核算的朋友,但毕竟内容较多,不免有所遗漏,如有读者发现过错,请留言奉告,防止误人子弟,多谢多谢!

另,翻译不易,四处求证、三天翻译、两天校正,只求一秒点赞

如觉有用,还望转发:)

带课程链接的完好文章请看我的简书专题【呆鸟译Py】:https://www.jianshu.com/p/4d7d489111f8

扫描,优惠购书

沿海