大数据科学相关岗位,需要具备哪些数学基础

其实,当你点进来时,你已经输给小编了,小编肯定有某种神奇的魔力,把你勾引了进来,请给小编一个继续勾引你的机会,麻烦你点点关注和评论,小编也会记在心里呢。

大數據科學相關崗位要具備哪些數學基礎?想成為一名頂級的數據科學家還需要掌握其他領域的知識,比如編程能力、具有一定的商業頭腦,以及對數據的獨特分析和好奇心態。

有時候,作為一名數據科學家(甚至是團隊的初級分析師),你必須全心全意地學習那些基礎的數學知識,或者正確地應用這些技術,有時候你可以通過使用一些API或者拿來即用的算法完成相關任務。大數據科學相關崗位要具備哪些數學基礎?

但是,如果你對用于為用戶創建有意義的產品推薦算法背后的數學知識有充分的了解,這將永遠不會對你有任何損害。通常情況下,懂得這些知識應該能讓你在同齡人中占有一席之地。

對“新手”特別重要

對于那些在其他領域花費大量時間并想進入這一領域的專業人士來說,基礎學知識顯得尤其重要,比如硬件工程、零售、化學加工工業、

企業管理

等領域。

雖然這些領域的工作中也涉及電子表格、數值計算和預測方面的內容,但在數據科學實踐中對必要的數學技能要求卻大不相同。

為什么以及如何與眾不同——這是科學而不是數據

考慮一個

Web開發

人員(或業務分析師),他可能每天需要處理大量的數據和信息,但可能沒有強調對該數據進行建模。通常,

數據分析

的任務重點在于“ 根據需求利用數據并繼續推進項目 ”,而不是深入探索,數據科學應該始終關注科學(而不是數據)。某些工具和技術會變得不可或缺,其中大多數是科學處理過程的特點:

通過探測潛在的動態來建模過程

1、構建假設

嚴格評估數據源的質量

量化數據和預測的不確定性

培養個人從

信息流

中識別隱藏模式的感覺

清楚地了解模型的局限性

理解數學證明及其背后的所有抽象邏輯

這類的培訓,大多數沒有考慮正數而是講解抽象的數學實體(及其屬性和相互關系),被認為是四年制大學學位課程標準課程的一部分。個人不需要以優異的成績從頂尖大學畢業來獲得這種水平的數學知識,但不幸的是,過去的訪問量幾乎在變少。

一般而言,沒有通用的藍圖。就其本質而言,數據科學并不依賴于特定的學科領域,并且可能是在單個項目中處理各種現象,如

癌癥

診斷和社會行為分析等,這會產生各種令人眼花繚亂的n維數學對象、統計分布、優化目標函數等。

上面提到的那些東西是什么?如果你對其補熟悉的話,以下是我們需要學習、吸收的內容建議。

2、函數、變量、方程、圖

想從事數據科學相關崗位,這些數學基礎“必備”

What:從基本的知識開始,如線的方程式到二項式定理及其性質。

對數、指數、

多項式函數

、有理數

基本幾何和定理,三角恒等式

實數和復數的基本屬性

級數、總和和不等式

圖表和繪圖、笛卡爾和極坐標系統、圓錐曲線

示例:如果想了解在排序后在百萬項目

數據庫

上搜索的運行速度,你將會遇到二進制搜索的概念。為了理解它的行為,需要理解對數和遞推方程。或者是分析時間序列的話,可能會遇到周期函數和指數衰減等概念。

3、統計

想從事數據科學相關崗位,這些數學基礎“必備”

What:成長為數據科學家必須知道的知識。在關于數據科學的討論中,再如何強調掌握統計和概率的基本概念的重要性都不為過。該領域的許多從業者實際上稱經典機器學習(非神經網絡)只是統計學習。該主題內容非常廣泛,重點規劃大多數的基本概念即可。

數據摘要和描述性統計、集中趨勢、方差、協方差及相關性

基本概率:基本概念、期望、概率演算、

貝葉斯定理

、條件概率

概率分布函數:均勻、標準、二項式、卡方、學生t分布、

中心極限定理

采樣、測量、錯誤、隨機數生成

假設檢驗、A / B檢驗、置信區間、p值,

方差分析、t檢驗

線性回歸,正則化

示例:在面試時,作為一名潛在的數據科學家,如果你能掌握上面提到的所有概念,你會很快地給對方留下深刻的印象。作為數據科學家,你幾乎每天都會使用上述中的一些概念。

4、線性代數

想從事數據科學相關崗位,這些數學基礎“必備”

What:社交網絡軟件上的朋友推薦、音樂

APP

中的歌曲推薦以及使用深度遷移學習將自拍照轉換為其它風格的圖像,這些都有用到線性代數的知識。線性代數是數學領域的一個重要分支,用于理解大多數機器學習算法如何在數據流上工作以創建洞察力。以下是要學習的基本內容:

矩陣和向量的基本屬性——標量乘法、線性變換、轉置、共軛、秩、行列式

內積外積、矩陣乘法法則和各種算法、逆矩陣

特殊矩陣——方陣、單位矩陣、三角矩陣、稀疏和密集矩陣、單位向量、對稱矩陣、

埃爾米特

矩陣、斜

埃爾米特

矩陣和酉矩陣,

矩陣分解、高斯/高斯-若爾消除法,求解Ax = b方程的線性系統

矢量空間、基、跨度、正交性、線性最小二乘,

特征值、特征向量和對角化,

奇異值分解

(SVD)

示例:如果你使用過主成分分析(PCA)降維技術,那么你可能已經使用過

奇異值分解

來實現數據集的緊湊維度表示,使得參數更少。所有

神經網絡算法

都使用線性代數技術來表示和處理網絡結構和學習操作。

5、微積分

想從事數據科學相關崗位,這些數學基礎“必備”

What:無論你在大學期間喜歡它還是討厭它,在數據科學或機器學習領域的許多地方都會應用微積分的概念。它隱藏在線性回歸中最小二乘問題的簡單分析解決方案背后,或者嵌入到神經網絡學習新模式的每個反向傳播中。以下是要學習的內容:

單變量、極限、連續性和可微性的函數

中值定理、不確定性和洛必達法則

極大值和極小值

乘積和鏈式法則

泰勒級數、無窮級數求和/積

積分計算和中值定理、對有限和不正確積分的評價,

Beta和Gamma函數

多變量函數、極限、連續性、偏導數

普通和偏微分方程的基礎知識

示例:如何實現邏輯回歸算法,它很有可能使用一種稱為“梯度下降”的方法來找到最小損失函數。要了解其如何工作,需要使用來自微積分的基本概念——梯度、導數、極限和鏈式法則。

6、離散數學

想從事數據科學相關崗位,這些數學基礎“必備”

What:這部分內容通常是“數據科學數學”方案中較少討論的主題,但事實是所有現代數據科學都是在計算系統的幫助下完成的,離散數學是這類系統的核心。要學習的內容:

集合、子集和冪集

計數函數、組合學、可數性

基本證明技術——歸納法、反證法

歸納、演繹和命題邏輯的基礎知識

基本

數據結構

——堆棧、隊列、圖、數組、哈希表、樹

圖表屬性——連接組件、度、最大流量/最小切割概念、圖形著色

7、遞歸關系和方程

函數的增長和O(n)符號概念

示例:在任何社交網絡分析中,你需要知道圖的屬性和快速算法以搜索和遍歷整個網絡。在選擇任何算法時,都需要通過使用 O(n)表示法來了解時間和空間復雜度。

最優化、運籌學

想從事數據科學相關崗位,這些數學基礎“必備”

What:這些主題與應用數學中的傳統話語沒什么不同,因為它們在專業領域——理論計算機科學、控制理論或運籌學中最為相關和最廣泛使用。實際上,每種機器學習算法旨在最小化受各種約束影響的某種估計誤差,這就是優化問題。要學習的內容:

優化的基礎——如何制定問題

最大值、最小值、凸函數、全局解

線性規劃、單純形算法

8、整數規劃

約束編程、背包問題

示例:使用最小平方損失函數的簡單線性回歸問題通常具有精確的解析解,但邏輯回歸問題卻沒有,要理解其中的原因,需要了解優化中凸性的概念,這也將闡明為什么我們必須對大多數機器學習問題中的“近似”解決方案能夠滿意。

轉載自網絡 不用于商業宣傳 版權歸原作者所有,侵權刪。

非常感谢各位看官能在百忙之中阅读小编的文章,您们的阅读和评论是小编继续坚持创作的动力。你们的每一个评论,小编都会去非常认真的去阅读,你们提出的宝贵意见我也会虚心接受,争取每天都为大家带来更多的优质文章。让大家不但可以增长见识,还可以有个好的心情。希望您能喜欢小编的文章!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181025A1KO4000?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券