什么是數(shù)據(jù)集成?
在企業(yè)大數(shù)據(jù)項(xiàng)目中有80%的工作都和數(shù)據(jù)集成相關(guān),數(shù)據(jù)集成是將零散的數(shù)據(jù)整合在一起,形成一個(gè)新的數(shù)據(jù)集,從而為企業(yè)提供全面的數(shù)據(jù)共享。
企業(yè)為什么要進(jìn)行數(shù)據(jù)集成?
由于企業(yè)各部門(mén)之間數(shù)據(jù)不互通,數(shù)據(jù)彼此獨(dú)立、相互封閉,很難使得數(shù)據(jù)進(jìn)行融合與共享,導(dǎo)致企業(yè)形成“數(shù)據(jù)孤島”,企業(yè)想要徹底消除數(shù)據(jù)孤島,需要集成現(xiàn)有數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)一體化,充分利用數(shù)據(jù)資源,為企業(yè)提供決策與支持。
您的數(shù)據(jù)是否遇到以下幾種情況
1.缺乏全面的數(shù)據(jù)梳理,無(wú)法準(zhǔn)確掌握數(shù)據(jù)整體狀況。
2.數(shù)據(jù)來(lái)源多種多樣、含義、口徑不一,數(shù)據(jù)質(zhì)量低下。
3.零散數(shù)據(jù)眾多,無(wú)法進(jìn)行數(shù)據(jù)整合。
4.缺乏數(shù)據(jù)共享有效監(jiān)管,上下游數(shù)據(jù)出現(xiàn)不一致情況。
吉佳通達(dá)數(shù)據(jù)集成技術(shù)簡(jiǎn)介
1.實(shí)體對(duì)齊
實(shí)體對(duì)齊是判斷兩個(gè)或者多個(gè)不同信息來(lái)源的實(shí)體是否為指向真實(shí)世界中同一個(gè)對(duì)象,如果找到多個(gè)實(shí)體表征同一個(gè)對(duì)象,則需要在這些實(shí)體之間構(gòu)建對(duì)齊關(guān)系,同時(shí)對(duì)實(shí)體包含的信息進(jìn)行融合和聚集。我們來(lái)舉個(gè)簡(jiǎn)單的例子,如“王明”一詞,在不同來(lái)源中指向同一對(duì)象,所以在實(shí)體對(duì)齊的過(guò)程中需要將不同來(lái)源的實(shí)體信息進(jìn)行對(duì)齊融合,以避免“王明”在知識(shí)圖譜中重復(fù)出現(xiàn)或?qū)嶓w的信息不完整。
2.記錄鏈接
記錄鏈接是在數(shù)據(jù)集中查找跨越不同數(shù)據(jù)源,它基于在可用數(shù)據(jù)集中匹配的單個(gè)標(biāo)識(shí)符的數(shù)量來(lái)生成鏈接。每個(gè)源包含若干記錄,而記錄包含一定數(shù)量的列。一般,每個(gè)記錄對(duì)應(yīng)于一個(gè)實(shí)體,而列是標(biāo)識(shí)實(shí)體的屬性,例如名字、地址、年齡和性別。
3.投影、篩選
投影是“選擇”列,篩選是“選擇”行。
篩選是按條件,投影是指選擇一個(gè)屬性的數(shù)據(jù),如有一個(gè)患者表包含屬性:姓名、年齡、性別,當(dāng)選擇姓名為“王明”的患者,會(huì)選擇出所有患者姓名為“王明”的患者。
4.數(shù)據(jù)集
將篩選之后的數(shù)據(jù),融合在一起,形成新的數(shù)據(jù)集。
吉佳通達(dá)數(shù)據(jù)集成基于領(lǐng)域知識(shí)圖譜集成數(shù)據(jù),可保證數(shù)據(jù)概念模式的科學(xué)性,實(shí)現(xiàn)多種數(shù)據(jù)類(lèi)型的關(guān)聯(lián),通過(guò)對(duì)各個(gè)數(shù)據(jù)源的數(shù)據(jù)交換格式進(jìn)行一一映射,從而實(shí)現(xiàn)數(shù)據(jù)的流通與共享。
17743467638
長(zhǎng)春市朝陽(yáng)區(qū)衛(wèi)星路7440號(hào)遠(yuǎn)創(chuàng)國(guó)際A座401室
版權(quán)所有?長(zhǎng)春市吉佳通達(dá)信息技術(shù)有限責(zé)任公司 吉ICP備08100182號(hào)-1
微信咨詢(xún)
17743467638