深入剖析減少每次同步數(shù)據(jù)量的6個(gè)方法
1.日期欄位(時(shí)間戳)
一般情況下,在設(shè)計(jì)表的時(shí)候,添加兩個(gè)日期欄位,CreatedOn, ChangedOn, 分別記錄數(shù)據(jù)產(chǎn)生時(shí)間和變更時(shí)間。同步程序可以根據(jù)兩個(gè)欄位來(lái)獲取差異的數(shù)據(jù)。
2.Trigger
它可以實(shí)時(shí)獲取差異數(shù)據(jù), Trigger使用較為容易,不需要改變?cè)淼慕Y(jié)構(gòu),可以只監(jiān)視部分的欄位變更,以獲取你需要的變化數(shù)據(jù),并對(duì)數(shù)據(jù)做二次處理。Trigger需要你對(duì)源表的維護(hù)狀況比較了解,否則可能產(chǎn)生一些意想不到的影響。
3.SQLServer本身的復(fù)制服務(wù)
本身支持多種數(shù)據(jù)同步方式,功能很強(qiáng)大,但是使用上會(huì)比較復(fù)雜,而且如果在同步過(guò)程中,需要對(duì)差異數(shù)據(jù)做二次處理,似乎無(wú)路可走。
這種方法可以保證隨時(shí)獲取某個(gè)時(shí)間段內(nèi)新增(變化)的數(shù)據(jù),同時(shí)對(duì)于追蹤問(wèn)題也大有裨益。但是缺陷也不少,其一是這兩個(gè)欄位完全由開(kāi)發(fā)人員控制,切實(shí)保證這兩個(gè)欄位每次都得到正確的維護(hù)比較困難,其二是不容易確定你下一次取差異數(shù)據(jù)的基準(zhǔn)時(shí)間。
4.timestamp欄位
timestamp可以理解為行的版本號(hào),每次插入或更新包含 timestamp 列的行時(shí),timestamp 列中的值均會(huì)更新。利用這一特性,建立一個(gè)包含源表ID和timestamp值的基準(zhǔn)表,就可以找到哪些數(shù)據(jù)發(fā)生變化了,每次同步成功后,再更新該基準(zhǔn)表。
5.監(jiān)控并記錄基于某數(shù)據(jù)對(duì)象的所有DML語(yǔ)句
這種方法,我沒(méi)有具體嘗試過(guò),但是一個(gè)很不錯(cuò)的思路,如果網(wǎng)絡(luò)狀況糟糕,而且對(duì)數(shù)據(jù)實(shí)時(shí)性要求不高,可以采用。具體做法是每天定時(shí)獲取你需要同步表的所有update, delete語(yǔ)句,然后定點(diǎn)打包發(fā)送到另外一臺(tái)服務(wù)器執(zhí)行。
6.使用BINARY_CHECKSUM
這個(gè)是我認(rèn)為最簡(jiǎn)單的方法。BINARY_CHECKSUM是SQLServer內(nèi)置的一個(gè)聚合函數(shù),它可以針對(duì)一行,或者某些列計(jì)算出一個(gè)值,如果它計(jì)算的那些列中的任何一個(gè)值發(fā)生變化,那么那個(gè)計(jì)算值就會(huì)發(fā)生變化。這樣我只要建立一個(gè)包含源表ID和最初計(jì)算值的基準(zhǔn)表,就可以找到哪些數(shù)據(jù)發(fā)生變化了,每次同步成功后,再更新該基準(zhǔn)表。與方法4不同的是,BINARY_CHECKSUM可以只監(jiān)視部分變化的欄位,這一點(diǎn)又類(lèi)似于Trigger了。
使用BINARY_CHECKSUM有些限制,因?yàn)樗谟?jì)算中會(huì)忽略具有不可比數(shù)據(jù)類(lèi)型的列(不可比數(shù)據(jù)類(lèi)型是 text、ntext、image、cursor 以及基本類(lèi)型為前4個(gè)數(shù)據(jù)類(lèi)型之一的 sql_variant),所以如果要監(jiān)控這些列變化,這種方法是不起作用的。
評(píng)論