數(shù)據(jù)質(zhì)量成熟度模型中分析數(shù)據(jù)準(zhǔn)備的五個(gè)級(jí)別:
第1級(jí):數(shù)據(jù)來源。了解數(shù)據(jù)來自哪里、如何收集、如何轉(zhuǎn)換、為什么以及由誰轉(zhuǎn)換,是任何可用數(shù)據(jù)集的最基本要求。
第2級(jí):基本衛(wèi)生。在這個(gè)級(jí)別,團(tuán)隊(duì)關(guān)注的是基本數(shù)據(jù)元素的統(tǒng)一表示。
第 3 級(jí):異常值、混亂和不太可能的組合。第 3 級(jí)需要更深入的統(tǒng)計(jì)知識(shí)以及 DataOps 團(tuán)隊(duì)更深入的領(lǐng)域?qū)I(yè)知識(shí)。
第 4 級(jí):覆蓋缺口。這尤其涉及識(shí)別所提供數(shù)據(jù)中的差距,并找到補(bǔ)充它們的方法。
第 5 級(jí):偏見。在更高的層次上,運(yùn)行完全集成的項(xiàng)目團(tuán)隊(duì),團(tuán)隊(duì)結(jié)合了數(shù)據(jù)科學(xué)、DataOps 和軟件工程師。人們每天都在同一個(gè)項(xiàng)目上工作,這樣可以發(fā)現(xiàn)和解決已經(jīng)“通過”所有先前級(jí)別的質(zhì)量門的數(shù)據(jù)中細(xì)微但關(guān)鍵的偏差。
了解此類問題的存在并有效解決這些問題需要數(shù)據(jù)科學(xué)家和 DataOps 專家之間持續(xù)進(jìn)行深入合作,這是生成機(jī)器學(xué)習(xí)模型或預(yù)測(cè)分析的必要條件,這些模型或預(yù)測(cè)分析不受未公開偏見的影響并經(jīng)受住現(xiàn)實(shí)世界的考驗(yàn)采用。