網站首頁 工作範例 辦公範例 個人範例 黨團範例 簡歷範例 學生範例 其他範例 專題範例

統計資料專題庫的研究論文

欄目: 畢業論文模板 / 釋出於: / 人氣:2.1W

統計部門應用系統繁多,資料來源廣。

統計資料專題庫的研究論文

專題庫建設的步驟和方法

專題庫建設時,首先需要明確該專題的資料範圍,專題資料可來源於統計年鑑、專題彙報等檔案以及聯網直報系統等應用,緊密圍繞專題的業務本質進行設定,如能源專題庫則應該包括能源建設、能源生產、能源消費等內容。

根據對統計領域已有系統和基礎資料的分析,建立專題庫的資料模型。其元資料主要包括13類,其中9類為業務元資料。

專題庫中最直接的為資料,通過對9類業務元資料的分析可得知指標與資料關聯最為緊密,其他元資料均可通過指標與資料進行關聯,通過分析和設計,可變為如圖3所示的資料模型。

通過分析每個元資料本身的屬性,根據模型可得出每一資料應包括60多個屬性,考慮資料儲存及專題庫的價值,逐一評估後給出需冗餘的屬性,如下:id、值、報送單位_id、期別_id、指標_id、目錄條目_id、入庫時間戳、報送單位全稱、期別_起、期別_訖、指標全稱、目錄_id、目錄條目名稱、分組1條目_id 、分組2條目_id 、分組3條目_id 、分組4條目_id 、分組5條目_id 、分組6條目_id 、分組7條目_id、地域1級_id 、地域2級_id 、地域3級_id、計量單位_id、資料釋意全文。

其中,5個必須欄位為值、報送單位_id、期別_id、指標_id、目錄條目_id;2個管理欄位為id、入庫時間戳,以及18個冗餘儲存欄位。

資料是專題庫的基礎,所有的資料處理和分析都是建立在及時、準確、全面的資料之上,專題資料的來源主要包括以下幾個方面:

(1)通過聯網直報系統由企業、地方統計部門等按照制度報送週期的要求進行資料的報送;

(2)通過各專業司建立的資訊上報系統,由相關的企業(如房地產企業等)進行定期的資料報送;

(3)通過電子郵件、紙質檔案等由各部委辦局或地方統計局等將相關的資料進行彙總報送;

專題庫的建設將支撐不同的資料來源、不同型別資料的匯聚,並以統一的資料集合加以利用。

當資料處理和儲存時需考慮資料的處理,包括輸入格式轉換、資料篩選、資料單位的轉化、資料的校驗、資料儲存等。

(1) 輸入格式轉換。不同的資料來源可能有不同的資料格式,系統將自動解析來源資料的格式,並轉換為系統的統一資料格式。

(2) 資料篩選。由於專題庫的資料有著多種資料來源,可能存在不同來源間的資料衝突,系統將建立資料衝突的處理機制,對資料進行篩選,確定資料採集途徑的標準,確保資料的唯一性。

(3) 資料單位的轉化。在統計資料中,經常會碰到以不同數量級的單位作統計的資料,如萬噸和噸。針對這種情況,系統將自動把不同數量級的單位轉換成標準單位儲存入庫。