在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 數(shù)據(jù)流通利用 | 數(shù)據(jù)開放利用應(yīng)當(dāng)遵循FAIR原則

            數(shù)據(jù)流通利用 | 數(shù)據(jù)開放利用應(yīng)當(dāng)遵循FAIR原則

            發(fā)布人:數(shù)據(jù)派THU 時間:2022-11-20 來源:工程師 發(fā)布文章

            以下文章來源于清華大學(xué)智能法治研究院 ,作者王勤

            數(shù)據(jù)要素的重要價值在于支持科學(xué)研究和技術(shù)創(chuàng)新,以可查找、可訪問、可互操作、可重用為內(nèi)容的FAIR原則有助于充分發(fā)揮數(shù)據(jù)的要素價值。中央全面深化改革委員會第二十六次會議審議通過的《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》提出:促進(jìn)數(shù)據(jù)高效流通使用、賦能實體經(jīng)濟(jì),統(tǒng)籌推進(jìn)數(shù)據(jù)產(chǎn)權(quán)、流通交易、收益分配、安全治理,加快構(gòu)建數(shù)據(jù)基礎(chǔ)制度體系。在數(shù)據(jù)流通利用的立法中,必然要提出數(shù)據(jù)流通利用的幾項基本原則,F(xiàn)AIR原則應(yīng)當(dāng)納入未來的數(shù)據(jù)流通利用立法之中。本文對FAIR原則的具體內(nèi)涵、落實應(yīng)用等情況予以總結(jié)。

            1

            數(shù)據(jù)FAIR原則的具體內(nèi)容


            FAIR原則在2014年1月荷蘭萊頓舉辦的洛倫茲研討會(Lorentz workshop)上首次被提出[1]隨后2016年3月Wilkinson等學(xué)者在《科學(xué)數(shù)據(jù)》(Scientific Data)上發(fā)表文章《科學(xué)數(shù)據(jù)管理中的FAIR指導(dǎo)原則》(FAIR Guiding Principles for Scientific Data Management and Stewardship)首次對它進(jìn)行了系統(tǒng)性論述。FAIR由Findabilty(可查找),Accessibility(可訪問),Interoperability(可互操作)和Reuse(可重用)四個單詞首字母的組成,代表了FAIR原則的四項基本原則,即可查找、可訪問、可互操作、可重用。FAIR原則要求在科學(xué)研究中取得的數(shù)據(jù)都需符合上述四項基本原則。自提出以來,F(xiàn)AIR原則很快在科學(xué)界引發(fā)了廣泛討論,并且在世界各地的政策制定者、資助者中贏得了廣泛認(rèn)同。


            1. 可查找(Findability)

            FAIR原則的首要原則是F(Findability)原則,即數(shù)據(jù)的可查找性。如果無法識別和查找數(shù)據(jù),則無從談?wù)摂?shù)據(jù)的訪問、互操作和重用。數(shù)據(jù)要符合Findability原則需滿足四個子原則,以下分別用F1、F2、F3、F4表示。


            F1:(元)數(shù)據(jù)被分配有一個全球唯一且恒久的標(biāo)識符。

            F1原則是所有原則的基礎(chǔ)。如果沒有一個全球唯一且恒久的標(biāo)識符,F(xiàn)AIR的其他方面便很難實現(xiàn)。


            全球唯一且恒久的標(biāo)識符消除了數(shù)據(jù)的歧義。許多數(shù)據(jù)存儲庫會自動為已存儲的數(shù)據(jù)生成全球唯一且恒久的標(biāo)識符。標(biāo)識符可以幫助人們準(zhǔn)確理解數(shù)據(jù)的意思,幫助計算機(jī)以一種有意義的方式解釋數(shù)據(jù)。標(biāo)識符對人機(jī)交互至關(guān)重要,而人機(jī)交互正是開放科學(xué)的前景所在。標(biāo)識符可以幫助他人在重用數(shù)據(jù)時正確引用該數(shù)據(jù)。


            標(biāo)識符需滿足兩個特征:

            全球唯一。人們可以通過注冊表服務(wù)獲得數(shù)據(jù)的全球唯一標(biāo)識符,該注冊表服務(wù)使用的算法可以保證標(biāo)識符的唯一性。不存在有兩個不同的數(shù)據(jù)擁有同樣的標(biāo)識符。


            恒久存在。標(biāo)識符對應(yīng)的網(wǎng)絡(luò)鏈接應(yīng)一直存在。維護(hù)網(wǎng)絡(luò)鏈接需要成本,隨著時間的推移,很多網(wǎng)絡(luò)鏈接往往會失效。而人們通過注冊表服務(wù)獲得的標(biāo)識符可以(在某種程度上)保證網(wǎng)絡(luò)鏈接在未來一直存在。


            標(biāo)識符通常是一個****,即URI(Uniform Resource Identifiers)。常見的標(biāo)識符類型共有四類,分別是:DOI、ARK、Identifiers.org和PURL。DOI全稱為數(shù)字對象標(biāo)識符(Digital Object Identifiers,DOI)。DOI系統(tǒng)由國際DOI基金會維護(hù),由各區(qū)域中心的注冊機(jī)構(gòu)(RA)提供支持,其中最重要的注冊機(jī)構(gòu)是DataCite。加入DataCite的會員有權(quán)每年創(chuàng)設(shè)一定數(shù)量的DOI。ARK全稱存檔資源密鑰(Archival Resource Keys)。ARK由加州數(shù)字圖書館、DuraSpace提供支持。ARK的工作原理與DOI類似,但在設(shè)計上更為寬松。超過500個注冊組織已經(jīng)創(chuàng)建了超過32億個ARK。注冊或解析ARK不收取任何費用。PURL全稱為持久性統(tǒng)一資源定位器(Persistent Uniform Resource Locator,PURLs),PURL是在https://purl.org上創(chuàng)建和解析的標(biāo)識符,該網(wǎng)站自2016年起由 OCLC移交給Internet Archive主管。DOI、ARK、Identifiers.org和PURL具體可以見如下示例[2]


            圖片


            目前對標(biāo)識符來說最大的挑戰(zhàn)即為確保它的壽命,尤其是確保由不同項目或社區(qū)創(chuàng)建的標(biāo)識符在該項目結(jié)束或者社區(qū)結(jié)束后仍能存在。因此需要保證標(biāo)識符與這些項目或社區(qū)相獨立。[3]


            F2:數(shù)據(jù)使用了豐富的元數(shù)據(jù)進(jìn)行描述。

            描述數(shù)據(jù)的元數(shù)據(jù)應(yīng)當(dāng)非常豐富,應(yīng)當(dāng)包括數(shù)據(jù)的背景、質(zhì)量、狀況或特征等等情況。豐富的元數(shù)據(jù)可以讓計算機(jī)自動完成日常且繁瑣的分類和排序任務(wù),這些任務(wù)目前耗費了研究人員大量的精力。F2原則背后的基本原理是,即使沒有數(shù)據(jù)標(biāo)識符,人們也應(yīng)該能夠根據(jù)元數(shù)據(jù)提供的信息找到數(shù)據(jù)。遵守F2原則能夠幫助人們定位數(shù)據(jù),并增加該數(shù)據(jù)的重用和引用。


            F3:元數(shù)據(jù)清晰且明示地包括了它們所描述數(shù)據(jù)的標(biāo)識符。

            元數(shù)據(jù)和它們描述的數(shù)據(jù)集通常處于不同的文件夾中,元數(shù)據(jù)文件和數(shù)據(jù)集文件夾之間通過在元數(shù)據(jù)中提到數(shù)據(jù)集的全球唯一且恒久標(biāo)識符相聯(lián)系。F2要求數(shù)據(jù)使用元數(shù)據(jù)進(jìn)行描述,F(xiàn)3表明元數(shù)據(jù)除了包含用以描述數(shù)據(jù)的元數(shù)據(jù),還應(yīng)包含被描述數(shù)據(jù)的標(biāo)識符,用以確定數(shù)據(jù)的位置。


            F4:(元)數(shù)據(jù)已在可檢索的資源中注冊或者建立了索引。

            標(biāo)識符和豐富的元數(shù)據(jù)并不能確保數(shù)據(jù)在互聯(lián)網(wǎng)上“可查找”。如果數(shù)據(jù)不可查找,那么再完美的數(shù)據(jù)也將失去價值。使得數(shù)據(jù)資源可查找的方法很多,比如建立索引。谷歌通過爬蟲“讀取”網(wǎng)頁并自動將它們建立索引,便可以讓人們通過谷歌搜索查找到網(wǎng)頁。對于大多數(shù)普通搜索者而言,谷歌搜索已是足夠,但對于學(xué)術(shù)研究數(shù)據(jù)的檢索,人們?nèi)孕枰⒏鞔_的索引。F1-F3原則為這類索引的建立提供了核心要素。


            2. 可訪問(Accessibility)

            FAIR原則中的第二個原則為A(Accessibility)原則,即數(shù)據(jù)的可訪問性。用戶在查找到所需的數(shù)據(jù)后的下一步即需訪問該數(shù)據(jù),訪問可能需要進(jìn)行身份驗證并獲得授權(quán)。數(shù)據(jù)要符合Accessibility原則需滿足四個子原則,以下分別用A1、A2、A3、A4表示。


            A1:(元)數(shù)據(jù)可通過標(biāo)識符使用標(biāo)準(zhǔn)化的通信協(xié)議進(jìn)行檢索。

            A1原則指出,F(xiàn)AIR數(shù)據(jù)的檢索不需要專門或?qū)S械墓ぞ呋蛲ㄐ欧椒?,使用?biāo)準(zhǔn)化的通信協(xié)議即可。標(biāo)準(zhǔn)化的通信協(xié)議有TCP、http(s)、HTP等。大多數(shù)網(wǎng)絡(luò)用戶通過點擊鏈接來檢索數(shù)據(jù)。鏈接是一個名為TCP協(xié)議的高級接口,計算機(jī)執(zhí)行該協(xié)議進(jìn)而在用戶的web瀏覽器中加載數(shù)據(jù)。http(s)、HTP則是構(gòu)成現(xiàn)代互聯(lián)網(wǎng)主干的協(xié)議,它們建立在TCP協(xié)議基礎(chǔ)之上,但請求和提供數(shù)字資源比其他通信協(xié)議更容易。


            A1.1:協(xié)議開放、免費、普遍可實現(xiàn)。

            為最大限度地實現(xiàn)數(shù)據(jù)重用,F(xiàn)AIR數(shù)據(jù)使用的通信協(xié)議應(yīng)當(dāng)免費、開放、可在全球范圍內(nèi)實現(xiàn)。任何人只要有一臺電腦與互聯(lián)網(wǎng)鏈接,就至少可以訪問元數(shù)據(jù)。這一原則將影響人們對共享數(shù)據(jù)的存儲庫的選擇。


            A1.2:協(xié)議在必要時允許認(rèn)證和授權(quán)程序。

            A1.2原則是FAIR原則中關(guān)鍵但經(jīng)常被誤解的一個原則。FAIR原則中的“A”并不必然意味著“開放”或“自由”。即使受到嚴(yán)格保護(hù)的私有數(shù)據(jù)也可以是符合FAIR原則的。“A”意味著應(yīng)當(dāng)提供數(shù)據(jù)可訪問的確切要求。理想狀況下,機(jī)器可以自動理解訪問數(shù)據(jù)的要求然后自動執(zhí)行該要求或提醒用戶注意該要求。有些數(shù)據(jù)存儲庫會要求用戶在存儲庫中創(chuàng)建用戶帳戶,這可以讓存儲庫得以驗證每個數(shù)據(jù)集的所有者(或貢獻(xiàn)者)的身份,并可以根據(jù)用戶的不同創(chuàng)設(shè)不同的用戶權(quán)利。A1.2原則也將影響人們對共享數(shù)據(jù)存儲庫的選擇。


            A2:即使數(shù)據(jù)不再可用,元數(shù)據(jù)仍然可以被訪問。

            維護(hù)數(shù)據(jù)資源的在線需要成本,隨著時間的推移,網(wǎng)上的數(shù)據(jù)常常會減損,鏈接會失效。而存儲元數(shù)據(jù)往往比存儲數(shù)據(jù)更方便、成本更低。因此,A2原則要求保證元數(shù)據(jù)應(yīng)持續(xù)存在,即使數(shù)據(jù)本身不再存在。A2原則與F4原則中描述的注冊和索引問題有關(guān)。


            3. 可互操作(Interoperability)

            數(shù)據(jù)通常需要與其他數(shù)據(jù)進(jìn)行集成。此外,數(shù)據(jù)還需要與應(yīng)用程序或工作流進(jìn)行互操作,以進(jìn)行分析、存儲和處理。數(shù)據(jù)的互操作即是指通過結(jié)合相互獨立的數(shù)據(jù)以獲得整體的分析結(jié)果。[4]數(shù)據(jù)要符合Interoperability原則需滿足三個子原則,以下分別用I1、I2、I3表示。


            I1:(元)數(shù)據(jù)使用一種正式、可訪問、共享和廣泛適用的語言來表示知識。

            正如人類之間需要能夠交換和理解彼此的信息,計算機(jī)之間也需要能夠互相交換和理解彼此的數(shù)據(jù)。因此數(shù)據(jù)應(yīng)當(dāng)是機(jī)器可讀的,并且不需要借用專門或特別的算法、翻譯器或映射來進(jìn)行數(shù)據(jù)的轉(zhuǎn)換。每個計算機(jī)至少需要了解其他計算機(jī)的數(shù)據(jù)交換格式。為實現(xiàn)這一點,以及為確保數(shù)據(jù)的自動可查找和互操作,需要:(1)使用常見、受控的詞匯、本體和主題詞表(具有可解析的全球唯一且恒久標(biāo)識符);(2)使用良好的數(shù)據(jù)模型。



            I2:(元)數(shù)據(jù)使用的詞匯表符合FAIR原則。

            用于描述數(shù)據(jù)集的受控詞匯表需適用全球唯一且恒久標(biāo)識符進(jìn)行記錄和解析,并且能夠輕松地被任何使用該數(shù)據(jù)集的人查找和訪問。


            I3:(元)數(shù)據(jù)包括對其他(元)數(shù)據(jù)的限定引用。

            限定引用是一個解釋了其意圖的交叉引用。例如,X是Y的監(jiān)管者是比X與Y有關(guān)系、或者X也能看到Y(jié)更恰當(dāng)?shù)囊谩O薅ㄒ每梢栽谠獢?shù)據(jù)之間創(chuàng)建有意義的連接,豐富人們對數(shù)據(jù)背景的了解,可以讓人們明確一個數(shù)據(jù)集是否建立在另一個數(shù)據(jù)集之上,是否需要額外的數(shù)據(jù)集來完成目前的數(shù)據(jù)集,或者互補信息是否存儲在不同的數(shù)據(jù)集中。


            I原則需要注意兩點:第一、根本上而言,實現(xiàn)數(shù)據(jù)的互操作性不是為了連接不同的數(shù)據(jù),而是為了實現(xiàn)數(shù)據(jù)用戶的互操作。第二、為實現(xiàn)數(shù)據(jù)的互操作,描述它的元數(shù)據(jù)也應(yīng)當(dāng)可以互操作。[5]


            4. 可重用(Reuse)

            FAIR原則的最終目的是實現(xiàn)數(shù)據(jù)的可重用。數(shù)據(jù)要符合Reuse原則需滿足兩個子原則,以下分別用R1、R2表示。


            R1:(元)數(shù)據(jù)被多個準(zhǔn)確且相關(guān)的屬性所描述。

            添加了很多標(biāo)簽的數(shù)據(jù)將更易被發(fā)現(xiàn)和重用。R1原則與F2原則相關(guān),但R1關(guān)注的是用戶(機(jī)器或人)判斷數(shù)據(jù)在特定場景中是否真的有用的能力。數(shù)據(jù)發(fā)布者不僅應(yīng)提供讓數(shù)據(jù)能被發(fā)現(xiàn)的元數(shù)據(jù),還應(yīng)提供豐富的描述數(shù)據(jù)生成場景的元數(shù)據(jù),比如實驗協(xié)議、生成數(shù)據(jù)的機(jī)器或傳感器的制造商和品牌等等。數(shù)據(jù)發(fā)布者不應(yīng)試圖預(yù)測數(shù)據(jù)消費者的身份和需求,而是應(yīng)當(dāng)盡可能多地提供元數(shù)據(jù),即使提供的元數(shù)據(jù)看起來與數(shù)據(jù)不甚相關(guān)。


            R1.1:(元)數(shù)據(jù)在發(fā)布時需提供清晰且可訪問的數(shù)據(jù)使用許可(usage license)。

            許可中應(yīng)當(dāng)清晰地描述數(shù)據(jù)使用的范圍。重用數(shù)據(jù)的組織都在努力遵循數(shù)據(jù)使用的種種限制和規(guī)范,如果數(shù)據(jù)使用的范圍描述不清,將會嚴(yán)重限制數(shù)據(jù)的重用。而隨著涉及到更多許可考慮的自動搜索技術(shù)的發(fā)展,許可狀態(tài)的明確將變得更加重要。因此必須讓機(jī)器和人都清楚數(shù)據(jù)可以使用的條件。前文提到的I原則描述的是數(shù)據(jù)在技術(shù)上的可互操作性,R1.1關(guān)于的是數(shù)據(jù)在法律上的互操作性。


            R1.2:(元)數(shù)據(jù)有詳細(xì)的來源。

            重用數(shù)據(jù)的人應(yīng)當(dāng)清楚數(shù)據(jù)來自哪里,需如何引用或作者希望如何被承認(rèn)。數(shù)據(jù)應(yīng)當(dāng)包括生產(chǎn)它的完整工作流:誰生成或采集了這些數(shù)據(jù)、它們是如何處理的、它們以前是否發(fā)布過、它們是否包含其他人的數(shù)據(jù)。理想情況下,這個工作流應(yīng)當(dāng)是機(jī)器可讀的。


            R1.3:(元)數(shù)據(jù)符合相關(guān)領(lǐng)域的社區(qū)標(biāo)準(zhǔn)。

            如果數(shù)據(jù)集相似,它們將更容易重用。例如,相同類型的數(shù)據(jù)、以標(biāo)準(zhǔn)化方式組織的數(shù)據(jù)、完善和可持續(xù)的文件格式、遵循通用模板且使用通用詞匯表的文檔(元數(shù)據(jù))。如果存在數(shù)據(jù)歸檔和共享的領(lǐng)域標(biāo)準(zhǔn)或最佳實踐,則應(yīng)該遵循這些標(biāo)準(zhǔn)或?qū)嵺`。例如,許多社區(qū)都有最低限度的信息標(biāo)準(zhǔn)(例如:MIAME、MIAPE)。FAIR數(shù)據(jù)至少應(yīng)符合這些標(biāo)準(zhǔn)。有些情況下,提交者提交的數(shù)據(jù)可能會偏離這一類型數(shù)據(jù)的標(biāo)準(zhǔn),這時他們都會提供有效且明確的理由。FAIR原則并不解決數(shù)據(jù)的可靠性問題。數(shù)據(jù)的可靠性取決于使用者,并且與數(shù)據(jù)的應(yīng)用目的有關(guān)。


            以上的FAIR原則以及它的十五個子原則并未為FAIR數(shù)據(jù)的生成提供具體的技術(shù)指引,但為提高數(shù)字資源的可查找性、可訪問性、互操作性和可重用性提供了指導(dǎo)。如何實現(xiàn)以上要求,不同的利益相關(guān)者當(dāng)有自己不同的方式。[6]



            2

            數(shù)據(jù)的FAIR化(FAIRification)


            有學(xué)者在論文中提出了數(shù)據(jù)FAIR化的七個步驟[7]:1)確定FAIR目標(biāo);2)分析數(shù)據(jù);3)分析元數(shù)據(jù);4)定義數(shù)據(jù)和元數(shù)據(jù)的語義模型;5)讓數(shù)據(jù)和元數(shù)據(jù)可鏈接;6)托管FAIR數(shù)據(jù);7)評估FAIR數(shù)據(jù)。


            1. 確定FAIR目標(biāo)

            第一步是確定FAIR目標(biāo),這屬于FAIR化工作流程的前階段。這一步需要訪問數(shù)據(jù)。如果數(shù)據(jù)是敏感數(shù)據(jù),即是數(shù)據(jù)管理員也不能訪問其實際信息的數(shù)據(jù),則可以使用匿名或模擬數(shù)據(jù)樣本進(jìn)行訪問。這一步還需要對數(shù)據(jù)集有大致了解,并且大致熟悉FAIR原則。FAIR的目標(biāo)可以是出版商、資助者或利益相關(guān)者的具體要求,也可以是提高不同來源數(shù)據(jù)的使用效率,還可以是提高數(shù)據(jù)的可查找性、可訪問性和重用性等等。


            2. 分析數(shù)據(jù)

            第二步是分析數(shù)據(jù)以為數(shù)據(jù)將來的FAIR化作準(zhǔn)備。這同樣是FAIR化工作流的前階段。這一步包括:(1)調(diào)查可用的數(shù)據(jù),檢查數(shù)據(jù)格式,確認(rèn)數(shù)據(jù)元素的含義是否明確;(2)檢查數(shù)據(jù)是否已經(jīng)包含F(xiàn)AIR特征,比如數(shù)據(jù)元素中是否有唯一且恒久標(biāo)識符。


            3. 分析元數(shù)據(jù)

            第三步是分析元數(shù)據(jù),這一步同樣處于FAIR化工作流的前階段。這一步包括:1)調(diào)查描述數(shù)據(jù)的元數(shù)據(jù),如果不存在元數(shù)據(jù),則去確定應(yīng)該收集什么元數(shù)據(jù);2)檢查元數(shù)據(jù)是否已經(jīng)包含F(xiàn)AIR特征,例如是否有豐富的元數(shù)據(jù)和來源描述。提高元數(shù)據(jù)的可查找性、可訪問性和可重用性要求在元數(shù)據(jù)中包括諸如許可證、版權(quán)聲明、貢獻(xiàn)聲明之類的細(xì)節(jié),并對數(shù)據(jù)使用條件和訪問方式進(jìn)行描述。


            4. 定義數(shù)據(jù)和元數(shù)據(jù)的語義模型

            第四步是定義數(shù)據(jù)和元數(shù)據(jù)的語義模型,該步驟處于工作流的FAIR化階段。語義模型是將數(shù)據(jù)和元數(shù)據(jù)轉(zhuǎn)換為機(jī)器可讀格式的模板。生成語義模型通常是數(shù)據(jù)FAIR化過程中最耗時的步驟。不過隨著時間的推移,生成語義模型的難度在逐步減小,因為目前正有越來越多的模型可供重用。 首先需檢查數(shù)據(jù)和可能被重用的元數(shù)據(jù)是否已經(jīng)存在一個語義模型。如果沒有既存的語義模型,則需要生成一個新的語義模型。


            構(gòu)建一個語義數(shù)據(jù)模型需經(jīng)過三步:


            第一步,創(chuàng)建一個概念模型,列出將要FAIR化的數(shù)據(jù)元素的主要概念和它們之間的關(guān)系。


            第二步,用機(jī)器可讀的類和屬性表示數(shù)據(jù)元素的概念和它們之間的關(guān)系。這些類和屬性通常來自于來自本體知識庫、詞匯表和主題詞表,可以通過本體查找服務(wù)(OLS)、BioPorta和BARTOC等搜索引擎進(jìn)行查找。


            第三步,使用概念模型和本體術(shù)語創(chuàng)建語義數(shù)據(jù)模型。語義數(shù)據(jù)模型以機(jī)器可讀的術(shù)語表示了數(shù)據(jù)的含義。這使得轉(zhuǎn)換后的FAIR數(shù)據(jù)能夠方便地應(yīng)用到其他系統(tǒng)和應(yīng)用程序之中。構(gòu)建語義模型需要在數(shù)據(jù)集和語義數(shù)據(jù)建模方面的專家。數(shù)據(jù)集領(lǐng)域的專家可以確保建模者能夠理解數(shù)據(jù)的確切含義,數(shù)據(jù)建模方面的專家則可以確保語義模型能夠正確地表示數(shù)據(jù)。



            5. 讓數(shù)據(jù)和元數(shù)據(jù)可鏈接

            第五步是使數(shù)據(jù)和元數(shù)據(jù)可鏈接,這一步處于工作流的FAIR化階段。使數(shù)據(jù)和元數(shù)據(jù)可鏈接的方法高度依賴于應(yīng)用程序和具體的使用案例。但至關(guān)重要的是在一個可以由全球機(jī)器可理解的表示框架中對數(shù)據(jù)和元數(shù)據(jù)進(jìn)行描述,即將數(shù)據(jù)和元數(shù)據(jù)轉(zhuǎn)換為機(jī)器可讀的形式。


            將數(shù)據(jù)轉(zhuǎn)換為機(jī)器可讀的形式需要語義數(shù)據(jù)模型以及完成這一過程的專門工具,如FAIRifier、Karma、Rightfield和OntoMaton。將元數(shù)據(jù)轉(zhuǎn)換為機(jī)器可讀的形式同樣需要語義元數(shù)據(jù)模型以及專門工具,如FAIR元數(shù)據(jù)編輯器(FAIR Metadata Editor)、CEDAR 和生物架構(gòu)生成器(BioschemasGenerator)。


            6. 托管(Host)FAIR數(shù)據(jù)

            第六步是托管FAIR數(shù)據(jù),即使數(shù)據(jù)可供使用,這一步處于工作流的FAIR化階段。經(jīng)過這一步,數(shù)據(jù)便可由人、機(jī)通過不同的接口進(jìn)行訪問。有許多不同的方法來在線訪問和管理FAIR數(shù)據(jù)資源。FAIR Data Point(FDP)提供的通用FAIR數(shù)據(jù)訪問器即是其中之一。該訪問器的人機(jī)界面為一個簡單的網(wǎng)頁,它提供了一個指向FDP提供的相關(guān)元數(shù)據(jù)層的鏈接,點擊該鏈接,即可獲得一個機(jī)器可讀的RDF文檔。


            7. 評估FAIR數(shù)據(jù)

            第七步是評估FAIR數(shù)據(jù),這一步處于FAIR化工作流的后階段。此過程可能包括:1)檢查步驟1中確定的目標(biāo)是否實現(xiàn),如果沒有實現(xiàn),工作流中的某些步驟可能需要重新進(jìn)行;2)使用FAIR評估工具檢查數(shù)據(jù)和元數(shù)據(jù)的FAIR狀態(tài),并將其與第二步和第三步中評估的FAIR狀態(tài)進(jìn)行比較。


            以上七步工作流程適用于任何類型數(shù)據(jù)的FARI化,并已被“Bring Your Own Data(BYOD)”工作坊所采用。但它們并非數(shù)據(jù)FAIR化的定式,只是一種可以作為參考的模版。隨著應(yīng)用程序社區(qū)對特定數(shù)據(jù)管理問題認(rèn)識和理解的增加,數(shù)據(jù)FAIR化的流程仍將繼續(xù)發(fā)展。



            3

            FAIR原則在實踐中的應(yīng)用


            FAIR原則在被提出之后,逐漸被應(yīng)用到科學(xué)研究的各個領(lǐng)域。例如,生命科學(xué)研究(尤其是生物醫(yī)學(xué)、衛(wèi)生、生物多樣性、農(nóng)業(yè)領(lǐng)域的研究)、核能研究、氣候變化研究、海洋研究、人文學(xué)科研究、經(jīng)濟(jì)學(xué)研究、空間科學(xué)和礦物學(xué)研究、數(shù)據(jù)科學(xué)研究等。在數(shù)據(jù)科學(xué)研究中則被應(yīng)用到本體映射、機(jī)器學(xué)習(xí)算法、基于本體的訪問協(xié)議、自動化技術(shù)以及世界各地數(shù)據(jù)中心的數(shù)據(jù)管理等細(xì)分領(lǐng)域。


            FAIR原則雖然起源自歐美,80%關(guān)于FAIR原則的文獻(xiàn)也來自歐美,但是FAIR原則的實踐已經(jīng)完全超越了歐美國家,擴(kuò)散到中國、拉丁美洲、非洲等區(qū)域。


            此外,很多國際組織都在致力于推動FAIR原則的實施和基礎(chǔ)設(shè)施建設(shè)。如:研究數(shù)據(jù)聯(lián)盟(Research Data Alliance, RDA)、科學(xué)技術(shù)數(shù)據(jù)委員會(The Committee on Data for Science and Technology)、歐洲研究基礎(chǔ)設(shè)施戰(zhàn)略論壇(European Strategy Forum on Research Infrastructures, ESFRI)和AGU和IUPAC。[8]


            歐盟在其開放科學(xué)戰(zhàn)略中全面采納了FAIR原則。在2014年1月啟動的“地平線2020”(Horizon 2020)科技計劃中,歐盟研究委員會啟動了“開放研究數(shù)據(jù)試點”項目,要求Horizon 2020資助項目的數(shù)據(jù)管理遵循FAIR原則。2016年2月,《歐盟開放科學(xué)議程》確立的五項行動之一是“建設(shè)支持開放科學(xué)的基礎(chǔ)設(shè)施”,其目標(biāo)是通過實施FAIR原則,到2020年全面實現(xiàn)歐盟范圍的跨學(xué)科、跨機(jī)構(gòu)的科學(xué)數(shù)據(jù)訪問、共享和重用。2020年2月,歐盟委員會新的《數(shù)據(jù)戰(zhàn)略》的核心內(nèi)容之一是“數(shù)據(jù)訪問和使用的跨部門治理框架”,首要任務(wù)是在2020年第四季度建立歐洲共同數(shù)據(jù)空間治理的立法框架。


            專業(yè)的FAIR服務(wù)市場正在形成。GO FAIR基金會和Phortos顧問公司組建了FAIR服務(wù)提供商聯(lián)盟(FSPC)。迄今為止,已有十余家公司加入并同意通過培訓(xùn)FAIR數(shù)據(jù)管理員和知識本體專家來提升提供FAIR服務(wù)的能力。部分公司正在考慮建立一個FAIR能力中心。FSPC承諾遵守GO FAIR規(guī)則,遵循GO FAIR實施網(wǎng)絡(luò)制定的最佳實踐。FSPC提供的服務(wù)范圍包括FAIR意識(FAIR Awareness events)、數(shù)據(jù)的FAIR化、語義和本體建模、構(gòu)建與FAIR化兼容的工具、FAIR數(shù)據(jù)管理培訓(xùn)和協(xié)助公司的GO FAIR進(jìn)程。[9]


            許多FAIR工具正在被開發(fā)出來。為了推動數(shù)據(jù)的FAIR化,工業(yè)界需要提供專業(yè)的產(chǎn)品和服務(wù)來支持FAIR數(shù)據(jù)的創(chuàng)建和使用。目前,實現(xiàn)數(shù)據(jù)FAIR化的過程仍包括許多手動步驟,這些步驟其實完全可以實現(xiàn)自動化。使用FAIR工具一方面可以減輕提供FAIR數(shù)據(jù)的負(fù)擔(dān),另一方面也可以減輕消費數(shù)據(jù)的負(fù)擔(dān),使用FAIR工具可以幫助生產(chǎn)更多的FAIR數(shù)據(jù),用戶也因而可以查找、訪問、互操作并最終重用更多的數(shù)據(jù)。[10]



            4

            FAIR原則的意義

            FAIR原則的提出回應(yīng)了歐洲“開放科學(xué)”運動的要求??茖W(xué)研究數(shù)據(jù)具有很高的價值,它是創(chuàng)新的關(guān)鍵因素,可以用于替代能源的尋找、疾病的治療等等關(guān)鍵領(lǐng)域的研究,帶來巨大的社會效益。在FAIR原則公布之前,不同領(lǐng)域、部門的科學(xué)數(shù)據(jù)在存儲內(nèi)容、格式等方面都存在很大差異。采用FAIR原則,可以讓數(shù)據(jù)能夠更易查找、更易訪問、更易互操作和重用,可以幫助消除數(shù)據(jù)孤島,克服學(xué)科間的界限造成的數(shù)據(jù)不易流通問題。


            此外,F(xiàn)AIR原則實現(xiàn)了數(shù)據(jù)的機(jī)器可讀,可以為將來人機(jī)交互、人工智能的發(fā)展奠定基礎(chǔ)。




            注釋:

            [1] Mons, Barend, et al. "The FAIR principles: First generation implementation choices and challenges." Data Intelligence 2.1-2 (2020): 2.

            [2] Juty, Nick, et al. "Unique, persistent, resolvable: Identifiers as the foundation of FAIR." Data Intelligence 2.1-2 (2020): 30-39.

            [3] Jacobsen, Annika, et al. "FAIR principles: interpretations and implementation considerations." Data intelligence 2.1-2 (2020): 15.

            [4] Guizzardi, Giancarlo. "Ontology, ontologies and the “I” of FAIR." Data Intelligence 2.1-2 (2020): 183.

            [5] Guizzardi, Giancarlo. "Ontology, ontologies and the “I” of FAIR." Data Intelligence 2.1-2 (2020): 182.

            [6] Jacobsen, Annika, et al. "FAIR principles: interpretations and implementation considerations." Data intelligence 2.1-2 (2020): 11.

            [7] Jacobsen, Annika, et al. "A generic workflow for the data FAIRification process." Data Intelligence 2.1-2 (2020): 56-65.

            [8] Mons, Barend, et al. "The FAIR principles: First generation implementation choices and challenges." Data Intelligence 2.1-2 (2020): 3.

            [9] van Vlijmen, Herman, et al. "The need of Industry to go FAIR." Data Intelligence 2.1-2 (2020): 282.

            [10] van Vlijmen, Herman, et al. "The need of Industry to go FAIR." Data Intelligence 2.1-2 (2020): 281.


            參考文獻(xiàn):

            1.    https://www.go-fair.org/fair-principles/

            2.    Mons, Barend, et al. "The FAIR principles: First generation implementation choices and challenges." Data Intelligence 2.1-2 (2020).

            3.    Juty, Nick, et al. "Unique, persistent, resolvable: Identifiers as the foundation of FAIR." Data Intelligence 2.1-2 (2020).

            4.    Jacobsen, Annika, et al. "A generic workflow for the data FAIRification process." Data Intelligence 2.1-2 (2020)

            5.    van Vlijmen, Herman, et al. "The need of Industry to go FAIR." Data Intelligence 2.1-2 (2020)

            6.    Guizzardi, Giancarlo. "Ontology, ontologies and the “I” of FAIR." Data Intelligence 2.1-2 (2020)

            7.    Jacobsen, Annika, et al. "FAIR principles: interpretations and implementation considerations." Data intelligence 2.1-2 (2020)




            *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉