非結(jié)構(gòu)化海量網(wǎng)絡(luò)數(shù)據(jù)處理技術(shù)研究
1.3 網(wǎng)絡(luò)數(shù)據(jù)包個(gè)數(shù)多
為提高發(fā)包效率,使發(fā)包延遲時(shí)間盡可能小,將數(shù)據(jù)包在采集后快速的發(fā)送出去,ARCA公司的采集器規(guī)定每個(gè)數(shù)據(jù)包的大小在設(shè)計(jì)上不允許超過(guò)1 500 B。同時(shí),現(xiàn)在的測(cè)試參數(shù)都是高采樣率,在這樣的測(cè)試系統(tǒng)條件下,一個(gè)網(wǎng)絡(luò)數(shù)據(jù)包可記錄的參數(shù)量非常有限,必然會(huì)產(chǎn)生惟一標(biāo)示的單個(gè)網(wǎng)絡(luò)數(shù)據(jù)包的個(gè)數(shù)激增。
1.4 網(wǎng)絡(luò)數(shù)據(jù)包非結(jié)構(gòu)化
網(wǎng)絡(luò)數(shù)據(jù)包具有典型的非結(jié)構(gòu)化。在采集器端,按照測(cè)試系統(tǒng)的配置采集參數(shù),并形成網(wǎng)絡(luò)數(shù)據(jù)包。對(duì)于交換機(jī)而言,單個(gè)網(wǎng)絡(luò)數(shù)據(jù)包的到來(lái)和發(fā)送沒有完整的規(guī)則。在記錄器上記錄的原始網(wǎng)絡(luò)數(shù)據(jù)包數(shù)據(jù),在數(shù)據(jù)包的排列順序上是無(wú)序的,數(shù)據(jù)包的周期是不確定的。不能準(zhǔn)確預(yù)測(cè)到下一個(gè)網(wǎng)絡(luò)數(shù)據(jù)包到來(lái)的順序和時(shí)間。
2 網(wǎng)絡(luò)數(shù)據(jù)處理方法
針對(duì)以上網(wǎng)絡(luò)數(shù)據(jù)包的特點(diǎn):最新的網(wǎng)絡(luò)數(shù)據(jù)包格式和記錄格式,海量的原始數(shù)據(jù),數(shù)目龐大的測(cè)試參數(shù),典型的非結(jié)構(gòu)化,以及上千萬(wàn)、上億的單個(gè)網(wǎng)絡(luò)數(shù)據(jù)包。根據(jù)飛行試驗(yàn)的特點(diǎn),必須在盡可能短的時(shí)間內(nèi)給出飛行試驗(yàn)的數(shù)據(jù)分析結(jié)果,以便試飛工程師安排接下來(lái)的飛行試驗(yàn)。
2.1 內(nèi)存映射文件
內(nèi)存映射文件,是由一個(gè)文件到一塊內(nèi)存的映射。WIN32提供了允許應(yīng)用程序把文件映射到一個(gè)進(jìn)程的函數(shù)(CreateFileMapping)。使用內(nèi)存映射文件處理存儲(chǔ)于磁盤上的文件時(shí),將不必再對(duì)文件執(zhí)行I/O操作,使得內(nèi)存映射文件在處理大數(shù)據(jù)量的文件時(shí)能起到相當(dāng)重要的作用。在處理飛行試驗(yàn)海量網(wǎng)絡(luò)數(shù)據(jù)時(shí),需不斷地提取數(shù)據(jù)的,進(jìn)行判斷、跳過(guò)等文件操作。如果按照以往的文件指針模式去提取網(wǎng)絡(luò)數(shù)據(jù),在數(shù)據(jù)處理效率上有可能不能滿足飛行試驗(yàn)海量網(wǎng)絡(luò)數(shù)據(jù)處理的需求。針對(duì)快速讀取海量原始網(wǎng)絡(luò)數(shù)據(jù),內(nèi)存映射文件模式提供了解決方法。
2.2 時(shí)間矩陣同步分析算法
針對(duì)飛行試驗(yàn)原始網(wǎng)絡(luò)數(shù)據(jù),每個(gè)單獨(dú)的網(wǎng)絡(luò)數(shù)據(jù)包總是有時(shí)間標(biāo)識(shí)的。這些時(shí)間標(biāo)識(shí)在整個(gè)原始文件中又是無(wú)序存放的。飛行試驗(yàn)的科目所需要的數(shù)據(jù)往往存在于多個(gè)網(wǎng)絡(luò)數(shù)據(jù)包中,這些網(wǎng)絡(luò)數(shù)據(jù)包中的數(shù)據(jù)往往不會(huì)是同一時(shí)刻采集的,也就是說(shuō)網(wǎng)絡(luò)數(shù)據(jù)包的時(shí)間標(biāo)識(shí)不會(huì)是同時(shí)刻的。針對(duì)網(wǎng)絡(luò)數(shù)據(jù)包的這些特性,為快速進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)包的時(shí)統(tǒng)分析,設(shè)計(jì)了時(shí)間矩陣同步分析算法。
如圖2網(wǎng)絡(luò)數(shù)據(jù)包時(shí)間順序所示,原始網(wǎng)絡(luò)數(shù)據(jù)包的時(shí)間在順序上是無(wú)序的。本文引用地址:http://www.biyoush.com/article/194778.htm
評(píng)論