幾乎每個行業都會產生大量的數據,且隨著時間呈快速增長趨勢。實驗室數據也不例外,近年來,高通量分析成為實驗室分析方法的大趨勢,從而產生了相較于以前幾倍甚至幾十倍的數據,但大量的數據并非就是所謂的大數據。
成熟的高通量分析與互聯網技術的融合,已經成為實驗室數字化的趨勢。
研究機構、藥品生產企業以及小型實驗室之間越來越多的合作都使數據量大幅增加。不斷增長的數據量不僅對實驗室的IT系統提出了挑戰,也給數據的處理分析提供了更多新的可能性,同時與此有關的價值增值過程,都可以歸到大數據這一概念中去。
大量的數據本身并非就是大數據,只有當這些數據能夠按照一定的格式保存,能被有效的查詢,進行綜合分析后,可以獲取某種新的相互關系,并從中得到更有用的信息時,這樣的"大量數據"才能被稱之為大數據。
把積累的大量數據變成大數據還有很多工作要做。許多實驗室數據和信息都被存儲在本地的數據庫中,更多的是記錄在紙張報告、記錄表中,被分散在一個個文件夾中而很難用于大數據分析。

大數據的應用條件首先是要把實驗室中所有的數據都保存在統一的數字化平臺。這種平臺允許對所有數據進行分類,而且有統一、結構化的數據采集過程,從而能夠在過程層面對數據進行比較。為了能夠處理越來越大的數據量,從長期發展來看,把用于分析和生產的儀器設備與IT系統直接連接起來是的,這樣可以確保在任何時間都能連續跟蹤數據,根據這些數據可以看出很多被隱藏的影響因素,對這些影響因素進行仔細分析后,可以搞清楚它們對過程的影響從而做出調整。
多年來,實驗室數據的數字化是實驗室日常工作中一個嚴峻挑戰。目前已經有許多不同類型的電子實驗室記錄(ELNs)和實驗室信息管理系統(LIMS)可供使用,但不是所有的實驗室都使用統一的系統管理數字化文件。某些移動輸入設備,例如,平板電腦和智能手機的發展都有利于數字化系統的應用和推廣。許多實驗室都會使用數據格式不同的數據,例如,Word、Excel、PDF和圖像格式的通用數據格式,也常常要用到一些特殊格式的數據。
實驗設備和檢測儀器都算是實驗室的數據采集設備,它們可以記錄、生成大量數據。這些數據常常都被保存在聯網的計算機中,沒有聯網接口的話,可以保存在網絡驅動器中。因不同工作組之間面臨分散式的設備配置帶來的問題,因此限制了數據暢通無阻的傳輸,即使使用U盤也很難自動把儀器的結果數據與實驗室報告文檔數據建立起一一對應的聯系。為了實驗室儀器設備與IT系統間的空白,儀器設備制造商、實驗室用品生產廠、科研機構和制藥企業合作成立了一個名為"SiLA快速集成"的國際性組織,制定了實驗室儀器設備控制的統一標準。這一標準的目的是不同生產廠家生產的設備有著統一的接口,即所謂的PMS過程管理系統接口。這一PMS過程管理系統接口可以通過網絡服務器或者經互聯網的安全連接來登錄、訪問。
很多成功的案例都表明可以實現實驗室各儀器設備間的連接,然而,數字化試驗記錄、實驗室管理系統LIMS之間的連接,但這種連接常常是復雜的,且成本高。在未來,或許實驗室儀器設備可以實現即開即用的連接。把數字化實驗記錄集成到與實驗室自動化標準SiLA兼容的過程管理系統中,正如弗勞恩霍夫研究所協會與Labfolder公司合作開發的方案那樣,可以極大地簡化大量實驗室儀器設備的常規連接。