云計算將會是未來社會的基礎(chǔ)設(shè)施,掌握云計算的技能,對個人來說提升職業(yè)發(fā)展層次,對企業(yè)來說掌握云計算核心技能,將獲得極大競爭力。在云計算中機器學(xué)習(xí)是重要一環(huán),下面和大家聊聊云計算所需的5種機器學(xué)習(xí)技能。
云計算將會是未來社會的基礎(chǔ)設(shè)施,掌握云計算的技能,對個人來說提升職業(yè)發(fā)展層次,對企業(yè)來說掌握云計算核心技能,將獲得極大競爭力。在云計算中機器學(xué)習(xí)是重要一環(huán),下面和大家聊聊云計算所需的5種機器學(xué)習(xí)技能。
1. 數(shù)據(jù)工程
如果IT專業(yè)人員想在云平臺實施任何類型的人工智能策略,都需要了解數(shù)據(jù)工程。數(shù)據(jù)工程包含一系列要求數(shù)據(jù)整理和工作流開發(fā)的技能,以及一些軟件架構(gòu)的知識。
IT專業(yè)知識的不同領(lǐng)域可以分解為IT專業(yè)人員應(yīng)該完成的不同任務(wù)。例如,數(shù)據(jù)整理通常涉及數(shù)據(jù)源標(biāo)識、數(shù)據(jù)提取、數(shù)據(jù)質(zhì)量評估、數(shù)據(jù)集成和管道開發(fā),以在生產(chǎn)環(huán)境中執(zhí)行這些操作。
數(shù)據(jù)工程師應(yīng)該能夠輕松地使用關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和對象存儲系統(tǒng)。Python是一種流行的編程語言,可以與批處理和流處理平臺(如apachebeam)和分布式計算平臺(如apachespark)一起使用。即使IT人員不是精通Python程序的專家,掌握一些Python語言的知識將使其能夠從大量的開源工具中獲取數(shù)據(jù)工程和機器學(xué)習(xí)。
數(shù)據(jù)工程在所有主要云平臺中都得到了很好的支持。AWS公司提供了全面的服務(wù)來支持?jǐn)?shù)據(jù)工程,例如AWS Glue,適用于Apache Kafka的Amazon Managed Streaming(MSK)和各種Amazon Kinesis服務(wù)。AWS Glue是數(shù)據(jù)目錄以及提取、轉(zhuǎn)換和加載(ETL)服務(wù),其中包括對計劃作業(yè)的支持。MSK是數(shù)據(jù)工程管道的有用構(gòu)建塊,而Kinesis服務(wù)對于部署可擴展流處理管道特別有用。
谷歌云平臺提供了Cloud Dataflow,這是一項托管的Apache Beam服務(wù),可以支持批處理和Steam處理。對于ETL流程,谷歌云平臺提供了基于Hadoop的數(shù)據(jù)集成服務(wù)。
Microsoft Azure也提供了幾種托管數(shù)據(jù)工具,例如Azure Cosmos DB、Data Catalog和Data Lake Analytics等。
2. 建立模型
機器學(xué)習(xí)是一門正在不斷發(fā)展和進步的學(xué)科,IT人員可以通過研究和開發(fā)機器學(xué)習(xí)算法來從事自己的職業(yè)。
IT團隊使用工程師提供的數(shù)據(jù)來構(gòu)建模型和創(chuàng)建可以提出建議,預(yù)測值和對項目進行分類的軟件。重要的是要了解機器學(xué)習(xí)的基礎(chǔ)知識,即使許多模型構(gòu)建過程都是在云中自動完成的。
作為模型構(gòu)建者,需要了解數(shù)據(jù)和業(yè)務(wù)目標(biāo),制定問題的解決方案,并了解如何將其與現(xiàn)有系統(tǒng)集成的工作。
市場上的一些產(chǎn)品包括谷歌公司的Cloud AutoML,這是可以幫助組織使用結(jié)構(gòu)化數(shù)據(jù)以及圖像、視頻和自然語言來構(gòu)建自定義模型的服務(wù),而無需對機器學(xué)習(xí)有更多的了解。 微軟Azure在Visual Studio中提供了ML.NET模型構(gòu)建器,該模型構(gòu)建器提供了用于構(gòu)建、訓(xùn)練和部署模型的界面。Amazon SageMaker是另一項托管服務(wù),用于在云中構(gòu)建和部署機器學(xué)習(xí)模型。
這些工具可以選擇算法,確定數(shù)據(jù)中哪些特征或?qū)傩宰钣杏?,并使用稱之為超參數(shù)調(diào)整的過程優(yōu)化模型。這些服務(wù)擴展了機器學(xué)習(xí)和人工智能策略的潛在用途。正如人們駕駛汽車不必成為汽車機械工程師一樣,IT專業(yè)人員也不需要獲得機器學(xué)習(xí)的研究生學(xué)位來構(gòu)建有效的模型。
3. 公平與偏差檢測
算法做出的決策直接而顯著地影響個人。例如,金融服務(wù)使用人工智能來做出有關(guān)信貸的決策,這可能會無意中對特定人群產(chǎn)生偏見。這不僅可能有拒絕信貸對個人帶來的影響,而且還會使金融機構(gòu)面臨違反《平等信貸機會法》等法規(guī)的風(fēng)險。
這些看似艱巨的任務(wù)對于人工智能和機器學(xué)習(xí)模型是必不可少的。檢測模型中的偏差可能需要具有統(tǒng)計和機器學(xué)習(xí)技能,但是與模型構(gòu)建一樣,某些繁重的工作可以由機器完成。
FairML是用于審核預(yù)測模型的開源工具,可幫助開發(fā)人員識別工作中的偏見。檢測模型偏差的經(jīng)驗還可以為數(shù)據(jù)工程和模型構(gòu)建過程提供幫助。谷歌云的公平性工具在市場上領(lǐng)先,其中包括假設(shè)分析工具、公平性指標(biāo)和可解釋的人工智能服務(wù)。
4. 模型性能評估
模型構(gòu)建過程的一部分是評估機器學(xué)習(xí)模型的性能。例如,根據(jù)準(zhǔn)確性和召回率對分類器進行評估?;貧w模型(例如那些預(yù)測房屋出售價格的模型)是通過測量平均誤差率來評估的。
如今表現(xiàn)良好的模型將來可能會表現(xiàn)不佳。問題不在于該模型是否以某種方式被破壞,而是該模型是根據(jù)不再反映其使用環(huán)境的數(shù)據(jù)進行訓(xùn)練的。即使沒有突然的重大事件,也會發(fā)生數(shù)據(jù)漂移。重要的是評估模型并在生產(chǎn)中繼續(xù)對其進行監(jiān)視。
Amazon SageMaker、Azure Machine Learning Studio和Google Cloud AutoML等服務(wù)包括一系列模型性能評估工具。
5. 領(lǐng)域知識
領(lǐng)域知識并不是一種特定的機器學(xué)習(xí)技能,但它是成功的機器學(xué)習(xí)策略中最重要的部分之一。
每個行業(yè)都有一定的知識體系,云計算也是,必須以某種能力進行研究,尤其對于構(gòu)建算法的決策者。機器學(xué)習(xí)模型受到約束以反映用于訓(xùn)練它們的數(shù)據(jù)。具有領(lǐng)域知識的IT人員對于知道在哪里應(yīng)用人工智能,并評估其有效性至關(guān)重要。5種機器學(xué)習(xí)技能就是今天 和大家分享的內(nèi)容,希望對大家有所幫助。
免責(zé)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻自行上傳,本網(wǎng)站不擁有所有權(quán),也不承認(rèn)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,請發(fā)送郵件至:operations@xinnet.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,本站將立刻刪除涉嫌侵權(quán)內(nèi)容。