時間:2022-08-16 10:32:01
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數據挖掘論文,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
數據挖掘技術是延伸和擴展了傳統分析方法,可以發現傳統分析方法不能發現的內容和規律,并且它將人們從單調、枯燥的閱讀專利文獻的工作中解放出來,使用計算機代替了人類勞動,這樣不僅提高了效率,而且提升了準確度。因此,數據挖掘作為一個專利分析的強有力工具被引入到專利分析中來,并且得到快速的發展應用。專利數據挖掘流程應考慮的問題:一是用數據挖掘解決什么樣的問題;二是為進行數據挖掘所做的數據準備;三是數據挖掘的各種分析算法。故專利數據挖掘的一般過程通常按照以下步驟來完成:領會數據挖掘的目的,獲取分析所用的數據集合,探索、清理和預處理數據,選擇要使用的數據挖掘技術,使用算法解決問題,解釋算法的結果。而其一般流程可簡化為三個階段:數據準備數據挖掘結果解釋和評價。本文采用簡化的流程進行實證分析。
二、石家莊地區制藥企業專利數據挖掘
本文對石家莊地區制藥企業的專利數據進行挖掘分析,挖掘對象是華北制藥集團公司、石家莊制藥集團有限公司、石家莊神威藥業股份有限公司、石家莊四藥股份、河北以嶺藥業股份有限公司、石家莊市華曙制藥集團、河北醫科大學制藥廠、河北圣雪大成制藥有限責任公司等地址在石家莊且具有一定代表性的藥企,希望通過這些藥企數據能夠找到石家莊地區制藥領域的核心組成,并能為藥企更好地發展提供有力的信息支持。IPC號是目前權威的專利技術主題的標識編碼之一,基本包含了各行各業的專利信息,是一個龐大的專利信息體系。目前國內外很多分析方法及技術大部分是基于專利的IPC分類號來分析專利技術主題的,此分析方法有一定的參考價值和科學性,而且對于具有大量專利信息的分析具有很好的總結概括效果。本文以專利全部IPC號為分析對象,并且構建IPC號之間的關聯規則,在最大程度上揭示隱含的專利技術關聯性,從而為石家莊地區制藥企業專利技術的發展提供參考。
1.數據準備。數據來源的準確與否是數據分析與挖掘的基礎,是數據分析與挖掘的根本。本文所使用的石家莊地區制藥領域專利數據由萬方數據公司提供,以制藥企業地址為石家莊為檢索條件,搜索出了包括從1985—2014年間石家莊地區制藥領域專利644條,分別分布在A、B、C、D、E、F、G、H八個大部。對專利數據庫中的644條專利進行篩選,根據“分類號”字段限制,它涉及專利信息的分類,有些IPC所涉及的范圍與石家莊地區制藥領域沒有聯系或聯系很小,不宜保留。根據“申請人(專利權人)”字段的限制,剔除與石家莊地區制藥不相關或制藥企業地址不在石家莊地區的專利。最后篩選出590條最符合該領域特點的專利。由于IPC號在幾乎所有現存數據庫中均是以一個字段存儲一個專利的所有IPC分類號的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每個專利一般都有好幾個分類號,而每個企業又研究大量的專利,所以在進行專利分析之前,需要對專利IPC號進行數據整理。由于過于細致的IPC分類號并不利于專利主題的分析與揭示,所以本文中采用專利小類分析,就是取IPC號的前4位。并將申請人與其對應的多條IPC號進行拆分,拆分后的數據項有773條,即顯示每個申請人對應的一條IPC分類號。
2.數據挖掘。本文數據挖掘過程將采用Excel和SQLsever2005軟件,首先對所得到的數據導入SQLserver2005進行挖掘,利用SQLserver2005可以直接進行IPC號的關聯規則挖掘,然后對專利信息進行分析。
3.數據挖掘結果與分析。基于關聯規則制作依賴關系網絡圖,可以更加直觀地看到各個IPC號之間的關聯和依賴狀態。
(1)以A61K、C12N、C12P、C07D、C07C為中心的核心專利技術群。這些專利的IPC分類號是關鍵部分藥物組成的各種化合物即藥物主要成分的重要聚集組。A61K(醫用、牙科用等的配置品)是項集次數最多的,即支持度較高的,C12P(發酵或使用酶的方法合成目標化合物或組合物或從外消旋混合物中分離旋光異構體)、C12N(微生物或酶;其組合物)、C07D(雜環環合物,例如鄰氯芐星青霉素的合成)、C07C(無環和碳環化合物)通過專利相關知識我們已經知道這些都是藥物的合成成分,即土霉素、鏈霉素、青霉素等多種抗生素和維生素的主要成分組成,是制藥領域的核心。這也是和石家莊地區制藥企業的核心領域相符合的。另外這些專利主題的相互關聯、依賴說明了石家莊地區制藥企業在該領域具有很好的布局網絡,在研發數量上也占有一定優勢,所以說是石家莊地區制藥企業的主要研究領域。
(2)以B65G、C12M為中心的輔助設備專利技術群。藥品的生產離不開設備的支持,所以設備方面的專利也能體現制藥企業的技術水平。在圖1中也能體現出來,專利間有著很強的依賴性和關聯性,在核心專利周邊有B65G(運輸或貯存裝置,例如裝載或傾斜用輸送機、車間輸送機系統、氣動管道輸送機)、C12M(酶學或微生物學裝置),這些是制藥的輔助技術手段,與中心專利是相互聯系的,也是制藥過程中必不可少的,在這些方面的提高有利于制藥核心領域的發展。先進藥品的研制離不開先進制藥設備支持,所以設備水平的提高也是關鍵的。如圖3所示,石家莊地區制藥企業在這一方面的技術依賴網絡也已經形成,說明在此技術領域也已經擁有較強實力。但與中心主要專利相比,輔助設備專利技術還是需要不斷提高的。
三、總結
1.1數據挖掘技術
關聯分析即找出兩個或以上變量之間同時出現的規律、因果結構,即通過其他事物可對某個與之相關的事物做出預測。數據挖掘關聯分析的主要作用就是分析海量數據中潛在的關聯規則,對于高校圖書館個性化服務而言,即從圖書館數據庫中發現相關的關聯規則,針對用戶的信息需求做出準確預測,提高信息推送的針對性,便于用戶獲取所需的信息。聚類即將數據庫中的一組個體按照相似性歸結為若干類型,應用于圖書館系統中,就是將相似的文獻集中在一起,用戶在搜索相關文獻時可以查閱更多其他相關內容,便于其總結、歸納;在個性化服務中還可以通過聚類匯總用戶所需的特定信息。分類與聚類相似,是按照分析對象的屬性建立類組,用戶查閱資料的過程中,每種信息的重要程度有所不同,通過分類可以將用戶所需求的知識分為高度需求、中度需求及低度需求。在高校圖書館個性化服務中要對用戶的使用規律做出預測,即根據用戶歷史查閱記錄對用戶所需的文獻種類、特征等做出預測。時序模式主要是通過時間段對用戶的訪問記錄、檢索過程做出標志,再通過時間序列將重復率較高的內容挖掘出來,以預測其下個信息需求,提高用戶查閱資料的便利性。
1.2圖書館中應用數據挖掘的必要性與可行性分析
圖書館應用數據挖掘技術的必要性體現在以下幾個方面:首先,信息化需求。用戶的借閱記錄、檢索記錄均存儲于圖書館數據庫中,需要利用數據挖掘技術將這些海量數據轉換為有用的知識信息,以便于館員做出決策。其次,圖書館的管理需求。傳統圖書館系統僅能為用戶提供簡單的訪問、檢索等功能,這些功能無法滿足圖書館個性化的技術要求,因此要利用數據挖掘技術將用戶借閱數據中隱含的關聯性發掘出來,從中發現有用的知識信息。最后,用戶服務的需求。數字化圖書館的發展越來越迅速,用戶通過圖書館獲得的資源也越來越豐富,如何從海量的信息資源中發掘出對用戶有用的知識信息,僅依靠傳統的圖書館管理系統無法解決這一問題,因此要利用數據挖掘技術對用戶的借閱記錄進行分析,從中獲得更多有價值的信息,以提高圖書館的服務質量及館藏利用率。而在圖書館個性化服務中應用數據挖掘技術也是可行的,一方面很多圖書館已具備比較好的物質條件及人才條件,這些均是圖書館個性化服務中應用數據挖掘技術的必要條件,而且政府在經濟方面、政策方面也為數據挖掘的應用提供了更多保障;另一方面,近年來數據挖掘技術也有了長足的發展,其足以為圖書館的個性化服務提供必要的技術支持。圖書館數字化發展過程中需要采集、購置更多的數據資源,而利用數據挖掘技術可以為圖書館資源建設提供指導作用,挖掘圖書館的歷史借閱記錄,可進一步了解用戶的借閱習慣、閱讀興趣及信息需求,并且可以對不同圖書之間的關聯性進行深入分析,圖書館員根據這些信息記錄、分析結果等提供指導,可以提高圖書資源分配的合理性,對館藏布局進行優化。由此可見,數字化圖書館個性化服務中應用數據挖掘技術十分必要。
2圖書館個性化服務的具體體現
高校圖書館個性化服務是指根據每個用戶的專業、愛好、研究方向、探索領域及特殊服務為其提供更具針對性的信息服務,幫助用戶查閱更加完整的信息資料,便于其學習、研究。高校圖書館個性化服務具體體現在以下3個方面:
①用戶可根據自己的需求定制相關信息,以保證其在圖書館中能夠查閱到相關資料;圖書館利用數據挖掘技術發現用戶的興趣愛好,為其定制個性化的訪問空間。用戶訪問圖書館數據庫時會將其興趣愛好間接地反映出來,如果用戶不感興趣,在頁面停留的時間會較短,停留時間較長則說明比較感興趣;利用用戶的瀏覽路徑信息時間即可將用戶對信息資源的感興趣程度發掘出來。
②提高圖書館資源利用率。利用數據挖掘技術可以識別圖書館網站內頻繁訪問的路徑及用戶訪問次數較多的頁面,可以將新書信息、重要的分類信息放在這些路徑上,從而向用戶主動推送其所需要的信息資源,提高圖書的利用率。
③優化鏈接結構,提高用戶應用的便利性。對Weblog進行挖掘,可以發現用戶訪問頁面的相關性,增加聯系比較密切的網頁之間的關聯性;發現用戶的期望位置,如果用戶訪問期望位置的頻率高于對實際位置的訪問頻率,則可在二者之間建立導航鏈接,優化站點。
④查新服務與定題服務。傳統圖書館主要通過查詢光盤數據庫、文獻數據庫等進行查新服務,而隨著網絡技術的不斷發展與應用,外部網絡信息及更新的速度遠遠超過圖書館內部網絡,因此要加強網絡平臺的建設,以保證服務結果的真實性與可靠性。數字圖書館在進行查新與定題服務過程中,可以利用可視化技術為用戶提供在線即時信息分析。
3圖書館個性化服務中數據挖掘技術的應用
圖書館個性化服務數據挖掘技術的應用流程如下:建立讀者數據倉庫——數據收集——挖掘算法的選擇——挖掘結果的顯示——對結果的評價。
3.1建立讀者數據倉庫
數據挖掘過程中,在確定了挖掘目標后,即開始進行數據準備,從大量數據中選擇一個與需挖掘目標相關的樣板數據子集。此時需要建立一個數據倉庫,其主要作用是將所有挖掘目標所需的數據保存其中,如果未建立數據倉庫直接進行數據挖掘,可能會導致挖掘失敗,因此數據挖掘的前期工作大部分用于準備數據,因此建立數據倉庫是一個至關重要的準備工作。高校圖書館個性化服務中應用數據挖掘技術,第一步就是建立用戶的興趣庫及圖書館自身的特色資源數據庫。用戶使用圖書館的過程中,必然會產生大量的借閱記錄,訪問圖書館網站會留下訪問記錄,這其中均潛藏了大量有意義的信息。
3.2數據收集
在建立用戶興趣庫及特色資源數據庫后,必須對這兩個數據庫中的數據進行分析、調整,以保證原始數據的質量,從而保證數據挖掘結果的質量。數據收集即數據的分析與調整可以分為數據抽取、數據清洗及數據轉換等3個步驟。其中數據抽取的主要作用是將與挖掘目標相關的數據信息搜索出來;數據清洗則是對數據進行噪聲消除、重復記錄的消除及推導計算缺值數據等。圖書館每天會產生大量的用戶相關的數據,并非所有的數據均對整個挖掘處理過程有正面作用,有些數據可能會對挖掘效果產生負面影響,因此剔除這些無用的數據十分必要。數據轉換的主要作用是精減數據維數,從初始特征中分析出真正有用的特征,通過數據轉換可有效減少數據挖掘時需要考慮的變量數。
3.3選擇算法及建立模型
數據挖掘過程中不同的算法可能會實現同一個任務,但過程卻大相徑庭,因此要根據數據的特點、實際運行系統的要求選擇適用的算法。有些用戶比較傾向于獲取描述型的、容易理解的知識,有些用戶則希望獲取預測型知識,因此要針對不同的用戶選擇對應的算法,之后就要進行數據挖掘模型的建立。通過對用戶分類、聚類及時間序列的分析,將每類用戶的普遍性需求及個性化需求抽象出來,從而建立一系列的關聯規則模型。一個模型完成后不一定可以立刻解決問題,需要對其進行反復驗證,如果可以解決問題證明模型有效;如模型存在缺陷,則要通過反饋對模型進行修改、調整,或者選擇新算法,建立新模型,對不同的模型進行全面考察。
3.4結果解釋與知識表示
在建立數據挖掘模型后,可利用建立挖掘模型時所用的算法規則進行運算,即可產生數據挖掘結果,圖書館只需對挖掘結果進行可視化、可理解化處理即可。要將抽象的數據解釋成易讀、易懂的結果,圖書館決策者及管理者即可根據可視化的挖掘結果進行決策。比如圖書館新引進了一批考古專業的學術論文,由數據挖掘模型分析結果可知,該批論文的查閱者90%均為考古專業的老師與學生,其他專業的師生查閱率不到10%,根據這一結果,即可將論文信息傳遞給考古專業的相關用戶,以提高信息推送的針對性。
3.5結果的驗證、應用及評價
產生挖掘結果后需要進一步實踐,以驗證結果的有效性與可用性,及對模型的實用性進行評價,并且挖掘結果還具備預測未來數據的功能。上一步的結果解釋經過實踐后,可對應用過程進行跟蹤了解,獲得用戶的反饋信息,對結果的實用性進行驗證。需要注意一點,即一個數據挖掘的模型與已有數據完全相符比較困難,且并非所有的環境、每個時間節點均適用于同一個數據挖掘模型,因此要對挖掘結果做出評價,如經過用戶的反饋,數據挖掘出來的結果可以解決問題,實現了最初的挖掘目標,滿足了用戶需求,則可判定該模型是合理的。挖掘結果可以滿足用戶的要求,用戶就會做出滿意的反饋,將這一反饋信息提供給決策者即可做下一步的實施,完成該階段后,圖書館就基本上實現了以用戶為中心的個性化服務的數據挖掘過程。不過某些情況下模型的評價結果可能不盡如人意,即數據挖掘的結果無法滿足用戶的要求,這種情況就要由系統進行重新處理,重復上述步驟,重新抽取數據、選擇另外一種數據轉換方法、設定新的數據挖掘參數值、選擇另外的挖掘算法等。由此可見,數據挖掘的過程是一個不斷反饋的過程,體現出反復性的特點。
4結語
在熔煉機組優化運行的過程中,機組的運行性能指標與人員的操作水平、負荷及運行參數之間有著復雜的相互關系,這種關系在大量的生產歷史數據中與機組各數據項之間關聯,因此可以通過數據挖掘的方式把其中的關聯關系定量的反映出來,最終反饋到實際運行中。本文結合工廠的實際情況,分析由工廠的DCS系統采集的實時運行數據,來得到用戶期望的相關參數間定量的關聯規則。
2交互式關聯規則挖掘算法
關聯規則挖掘算法在數據庫的記錄或對象中抽取關聯性,展示了數據間位置依賴關系,其目的是尋找在大量的數據項中隱藏著的聯系或相關性。其優越性在于能將用戶的定制信息整合到挖掘過程中,以一種友好的方式引入約束,使挖掘出更加符合用戶需要的信息,并且提高了挖掘的效率和有效性。
2.1目標數據庫的確定
數據挖掘應熟悉對象的背景知識,明確挖掘的目標,根據目標確定相關數據,以此作為目標數據庫,來完成對數據的預處理、挖掘和規則評價。
2.2交互式關聯規則挖掘算法
表示A成立則B成立,其中給出了可信度C和支持度S。可信度C是對關聯規則準確度的衡量,即在出現A的情況下出現B的概率;支持度S是對關聯規則重要性的衡量,即A和B同時出現的概率。
3熔煉機組數據挖掘的實現
本文采用的是冀某工廠于2013年5月運行的數據,采樣頻率為2~3秒/次,采樣模式為實時監測值,得到7595組數據。在分析階段,對影響機組的主要可控參數進行了提取及預處理,參數主要包括:轉速、有功功率、主蒸汽壓力、調節級壓力、中壓缸排汽壓力。以機組轉速設計值為3600r/min為例來分析。對各個可控參數數據進行曲線化處理,作為分析它們之間的關聯規則的數據表。上述關聯規則表示,在三種負荷工況下,工廠熔煉機組有功功率與主蒸汽壓力、調節級壓力、中壓缸排汽壓力三者之間最優變化區間的關聯。經分析,在機組中應用關聯規則的數據挖掘技術與傳統方法相比,優點是其可以對不同的可測參數進行挖掘,方法簡單有效、可操作性強;運用關聯規則進行挖掘,對過程能夠較靈活控制,處理后的目標值直觀,便于操作指導和提高運行效率。
4結論
1網上銀行促銷渠道分析系統的設計
網上銀行促銷渠道分析系統采用C/S架構或者B/S架構,充分考慮系統易用性和投入產出。從維護網上銀行的C/S架構和B/S架構角度來分析,使用網上銀行促銷渠道分析系統的多是管理人員,并且在未來的發展過程中,系統用戶數量也不會大幅度上漲,綜合網上銀行系統的維護成本和開發成本,盡量選擇C/S架構。從使用者和系統數據傳輸的角度來分析,只有銀行工作人員才能使用這個系統,而C/S架構具有良好的靈活性。綜上所述,網上銀行促銷渠道分析系統可以使用C/S架構來部署軟件模塊。由于網上銀行系統包含大量的客戶信息數據,因此網上銀行系統必須具有更高的安全性和保密性,相關操作人員必須強化風險防范意識,規范網上銀行系統操作,嚴格控制系統的數據傳輸。網上銀行系統必須具有良好的擴展性,為數據表和數據查詢算法留出充足的軟硬件資源。同時,網上銀行渠道分析系統要支持工作人員擴展數據查詢、數據字典和數據表之前的交叉查詢,將用戶的查詢記錄保存在本地網絡服務器上,盡量避免重復查詢,提高網上銀行渠道分析系統的查詢速度。
2數據挖掘技術在網上銀行促銷活動中的運用
隨著商業銀行的快速發展,網上銀行受到人們的廣泛關注。網上銀行系統以計算機網絡為交易平臺,各種新型的促銷策略,使網上銀行業務得到迅速拓展。但是,和四大行相比,一些商業銀行的網上銀行業務仍然存在很大的差距。同時,近年來,網上銀行市場競爭日益激烈,某些網上銀行業務在應用過程中出現了促銷成本不斷增加,而促銷效果不理想的狀況,數據挖掘技術在網上銀行促銷活動中的運用,要積極解決這些問題。
2.1提高營銷質量當前,很多銀行都逐漸加大了網上銀行促銷力度,但是促銷活動的效果卻不明顯,單純的依靠贈送禮品或者各種優惠措施,在很大程度上會提升促銷成本,并且難以真正地吸引客戶。在網上銀行促銷活動中應用數據挖掘技術,分析不同促銷活動的特點,根據網上銀行系統自身的特點和優化,對不同客戶進行組合促銷,將不同的網上銀行業務或者產品聯系起來,有針對性地對有意向的客戶進行促銷,合理安排網上銀行促銷活動內容和時間,盡量在電子商務交易高峰時段之前,實現網上銀行促銷活動的目標。
2.2優化客戶結構一些商業銀行不了解客戶的真實需求,在發展潛在客戶時,缺乏針對性,網上銀行促銷活動的交易需求較弱。因此要應用數據挖掘技術挖掘一些隱含的信息,明確哪些客戶對網上銀行的哪些產品或者業務有需求,挖掘潛在的、有實力的客戶,將這些客戶作為網上銀行促銷活動的重點客戶。
2.3優化促銷活動流程在網上銀行促銷活動中運用數據挖掘技術,采用運用關聯分析,挖掘傳統銀行渠道重點產品和網上銀行系統重點產品的業務數據,挖掘非網絡銀行系統和網絡銀行系統業務以及網絡銀行系統不同業務或者產品之間的關聯關系,通過數據挖掘技術尋找符合網上銀行系統運營條件的關聯關系,探索網上銀行系統不同產品和業務之間的依存性或者相似性[2],由此將網上銀行系統的某一項業務或者產品作為重點促銷產品來拉動其他業務和產品的銷售,并且可以將一些業務或者產品組合起來進行有針對性的促銷,提高網上銀行促銷活動效果。另外,挖掘優質、有潛力客戶特征,優質客戶可以銀行提供大量的業務收入和交易量,因此可以通過數據挖掘技術的聚類方法分析銀行系統的客戶構成,挖掘優質客戶的共同特征,為網上銀行促銷活動提供重要的依據。
3結束語
數據挖掘技術在網上銀行促銷活動中的運用,可以極大地提高網上銀行促銷活動的效果和效率,利用數據挖掘技術幫助銀行系統挖掘一些隱含、有價值的信息數據,結合網上銀行系統的特點和優勢,幫助銀行系統有針對性開展網上銀行促銷活動,深入挖掘優質客戶,增加網上銀行業務交易量,提高網上銀行系統的經濟效益,推動網上銀行系統的快速發展。
作者:周駿單位:上海浦東發展銀行
1數據挖掘及其關鍵技術
數據挖掘技術是當前數據分析和處理領域一項十分重要的技術,具體而言數據挖掘技術可以看成是信息技術不斷發展和演進的結果,是在人們對于數據庫技術不斷發展和創新的基礎上發展而來的。在初期階段,商業數據往往只是簡單的進行存儲,然后有了對相關數據的查詢功能,再繼續發展為對相關數據的即時遍歷。數據挖掘技術使得數據查詢已經不僅僅局限于數據本身,同時還可以通過相關的算法和技術發現數據之間潛在的關聯性,從而在很大程度上增加了數據利用的深度和層次。隨著當前大數據時代的到來以及高性能計算機和數據挖掘算法的成熟,數據挖掘技術開始在商業領域進行應用,并且取得了快速的發展。在目前的醫院信息管理系統中已經積累了大量的數據信息,因此如何實現對這一部分信息的深層次數據挖掘是至關重要的,這也將直接決定著醫院將來的發展和命運。在醫院信息管理系統中應用數據挖掘技術可以在更深層次上對醫院的管理數據進行分析,從而可以為醫院從業人員的相關決策、管理以及研究提供更加有力的技術支持。因此數據挖掘技術在醫院信息管理系統中的應用具有十分重要的意義。在目前的數據挖掘技術中,其關鍵技術是數據的預處理。當需要進行分析的數據庫包含大量的噪聲或者存在數據不一致性時,數據預處理就顯得更加有必要。根據對相關數據挖掘過程的統計顯示,超過一半的時間用于進行數據預處理,而真正用于數據信息挖掘的時間則僅占到10%左右。目前的數據預處理技術主要分析對數據的清洗、集成、轉換以及消減等。另一關鍵技術是匿名化以及轉換技術,這主要是由于在目前的醫院信息管理中涉及到病人的隱私問題,因此在進行數據處理的同時需要對患者的相關記錄進行匿名化處理,以更好的保護患者的個人隱私。
2基于數據挖掘技術的醫院信息管理系統
2.1基于數據挖掘技術的醫院信息管理系統
關聯規則是目前進行數據挖掘的重要手段,在醫院信息管理系統中引入關聯規則可以進一步發現數據之間的相互關聯,并且在對病人的相關數據的分析和進一步挖掘過程中,嘗試分析患者年齡與醫療費用之間潛在的關聯,并且進一步通過這種關聯關系加強對醫院資源的合理優化配置,實現對不同年齡段患者的醫療費用的有效控制,進而實現醫院效益的最大化。具體而言,將關聯數據集合記為D{=t1,t2,...tn},tk={i1,i2,im..ip},tk為數據庫中的事務,im為數據庫中的項。在數據集合D中,其包含的集X的項數為集的支持數,將其記為σx,支持度為suppor(tX),則有suppor(tX)=σx/|D|×100%。假設X和Y為數據庫集合D中的項集,則有:假如XY,則有X項的支持度大于Y項的支持度,同時假如X是非頻繁項,則此時Y項也是非頻繁;則假如Y項是頻繁的,則X項也是頻繁的。在數據挖掘的關聯規則中有兩個至關重要的概念,即支持度與置信度。通常而言,支持度只要用于衡量采用的關聯規則的可信度,而置信度則用于表示在生成數據集中關聯規則的統計角色。在實際的應用過程中,假如support(XY)大于支持集,并且置信度大于最小置信度,此時XY可以稱之為強規則,否則將其稱之為弱規則。在數據挖掘的過程中,尋找強規則是整個數據挖掘過程的關鍵。在強規則XY所對應的項集中,必定存在著頻集。基于關聯規則的數據挖掘模型如圖1所示,其中主要包括數據集D、關聯規則搜索算法、數據挖掘結果R以及用戶與數據挖掘之間的交互,對相關的數據挖掘結果信息結果進行合理的評價。在實際的關聯規則數據挖掘過程中還需要考慮到以下兩個方面的問題:其一,盡量減少I/O操作的次數,這主要是由于數據挖掘過程中的數據量是非常大的,因此頻繁的進行I/O操作將會對數據挖掘的效率產生很大的影響,其根本的方法就是減少對于數據庫集的掃描頻率和次數;其二,避免候選集中項的數量過大,這主要是由于過多的項數將會使得存儲空間被大量占用,從而對數據挖掘的效率產生影響。
2.2基于數據挖掘技術的醫院信息管理系統的實現
數據準備階段。在研究過程中采用某醫院信息管理系統中的口腔潰瘍數據進行挖掘分析,其中數據準備階段主要包括集成、清洗以及轉換三個階段。具體而言,數據集成主要是將不同的患者數據表格及其費用數據整合到一起,并且對這些原始數據進行集成,將其集成到統一的數據表格中,其中主要包含患者的性別、年齡以及編號等信息。數據清洗指的是對原始數據進行進一步的處理,其目的是去除原始數據中的噪聲以及不相關信息、補充遺漏數據、去除白噪聲等,并且根據實際情況完成對原始數據的轉換。同時,由于醫院信息數據存在著其特殊性,醫院的數據往往產生于不同的場所,因此其產生的過程較為復雜,這就極易導致數據產生的過程中出現遺失或者出現數據錯誤的情況,因此數據清洗階段對于醫院數據挖掘工作是至關重要的,同時為了更好的保證數據清洗階段的準確性可以實行專業醫護人員監督的模式,此種模式可以有效的降低數據清洗過程中的差錯。數據轉換是針對數據的不同特征對數據進行有效的轉換,其中主要的手段包括對數據的規格化處理、數據信息歸納、旋轉等。結合實際的醫院信息管理系統數據挖掘案例,可以對年齡數據信息進分段編號處理,以更好的提高數據挖掘的效率。同時,在數據轉換的過程中還可以將一些沒有意義的數據進行刪減,以更好的保證數據挖掘的效率,同時還可以降低數據挖掘的誤差。
3結束語
現代化醫療事業發展關系到國計民生,在我國的社會主義發展過程中占到舉足輕重的位置。而信息化程度的提升對于推動現代化醫療事業發展具有十分重要的意義,基于數據挖掘的醫院信息管理系統能夠有效的提升醫院資源配置水平、提升醫院效益。
作者:沈旴亮單位:南京醫科大學附屬南京婦幼保健院
1分類。分類技術可解決事件的歸類問題,在應用時,不僅可以完成數據分析的任務,還能對未來的數據類型進行必要的預測,比如,充分運用分類技術對客戶的具體傾向進行預測,確定客戶是否對相關研究感興趣,該技術方法也可應用在醫療領域,針對患者的病情,通過分類技術選取適宜的藥物。
2回歸。回歸技術的核心為已知變量的數值,在此基礎上,對其他種類的變量實施必要的預測。在一般條件下,回歸技術充分發揮了線性回歸的實際效果,但從現實的角度講,并不是所有問題都能用基本的線性回歸進行分析和解決的,為了更好的適應這些實際的問題,相關人員對此也正在著手研究全新的方法,并已取得了顯著的效果,許多新型分析方法應運而生,比如邏輯回歸以及神經網絡等。
3時間序列。時間序列技術實際上就是以過去的變量為基礎,分析和預測下一階段變量的方法。與回歸技術相同,同樣都是運用現有的組員完成預測任務的,但資源的時間序列是存在一定差異的。時間序列技術通常是在完整的時間流中截選一個時間區間,對應數據形成一整套單元,最后將此單元在時間流上進行滑動,從而獲取訓練集。
4描述型。圖形與可視化工具是十分重要的,是相關人員完成快速分析任務的重要手段之一,改善了傳統數據的枯燥與乏味,不僅實現了數據整體的分析,還能對其中的每一個細節實施細致的觀察與分析,在圖形模式的支持下,人們可以更容易的了解到數據信息中潛在的相互關系和模式。
5關聯分析。關聯分析技術是指在數據庫中快速獲取數據的相關性。較為常用的技術方法主要有兩種,分別為關聯規則與序列模式,其中關聯規則是在相同時間中存在的不同項之間的相關性,而序列模式的研究對象主要為具體的事件。
6聚類。聚類技術實質上就是數據庫的分類,組間差別盡可能的明顯,而同一組內的數據要盡可能的相似或相同。聚類技術與分類技術存在很大的區別,在實施聚類以前,并不了解數據組的具體數量,分組的方法和依據也不知曉,所以在聚類完成以后,需要得到專業人士的分析和解釋。
二、經濟普查的根本目的與重要意義
1.根本目的。經濟普查是為了充分了解我國產業現階段發展的具體規模和實際效益,并創建完善的基本單位數據庫和對應的管理系統,為社會可持續發展方針的落實奠定堅實的基礎,同時也為國民經濟的快速發展獻計獻策。經濟普查的基本目標是了解情況,建立相應數據庫則是必要的手段,最終目的是促進我國國民經濟的快速發展與壯大。
2.重要意義。經濟普查數據信息屬公共產品范疇,既是黨和政府認識我國基本國情的重要依據,也是判斷各行業發展與走向的有效方法。經濟普查的全面開展與落實,可以為廣大人民群眾開創更多的就業渠道,改善人們的生活質量,使國民經濟的改革與建設更加完善與全面。
三、經濟普查數據挖掘方法的應用
1.注冊服務器。在經濟普查中運用書庫挖掘方法,首先應注冊服務器。分析服務器是數據分析的主體,有著不可取代的作用,因此分析服務器一般為首要的注冊對象,其他種類的注冊對象都是它的一部分。通常情況下,分析服務器名稱要與對應網絡名稱保持一致。
2.創建數據倉庫。在分析服務器注冊完成以后,即可在該服務器的基礎上建立各類數據庫,由于數據庫中還缺乏具體的對象,因此可認定該數據庫為空。為了使其發揮出更好的挖掘效果,還需充分考慮實際情況,創建適宜的研究對象。在計算機硬盤中尋找對應的安裝目錄,并在下分的子文件找到并觀察經濟普查工作的數據庫,確定文件的實際大小,在文件中存在數據庫操作方面所需的文件,這些文件主要以事件日志及數據的方式存在,且初始物理大小均為1M,在運行時一般以10%的速度增長。
3.建立索引。在上述操作完成以后,即可建立經濟普查相關的數據庫,但數據庫本身只是一種數據信息的存儲單元,想要使其發揮出最佳的效果,還需在數據庫的基礎上建立數據表,并建立與SQL操作所對應數據源,實際情況中滿足選取條件的數據源有很多種,由于該操作事先已經完成了數據表的建立,所以該數據庫中的數據類型僅有SQL這一種形式。
4.連接數據源。一般而言,數據庫創建完成以后的首要建立目標為數據源,數據源在數據庫中具有指定源數據的作用,數據庫的基本數據類型有很多種形式,為了滿足數據庫使用的基本需求,可在同一種數據庫中設置多種數據源。連接數據源是為了讓數據挖掘更好的進行,在數據源連接完成以后,可在相關軟件的支持下,完成數據挖掘的各項操作。
四、結語
1.1較高的有效性數據挖掘技術作為一種數據的深加工技術,其本身是帶有鮮明的目的性的,在實際應用活動中能夠對長時間積累下來的經濟統計數據進行基于數據使用者要求的深入加工。在實踐應用活動中主要有兩種重要的應用形式,一種是對積累經濟統計數據的管理高效化處理,一種是對現有經濟數據的目的性分析。其中第一種分析方式是從經濟數據管理的角度出發的,在應用中主要是以固有數據信息的統計、分類為基礎,將原本混亂的數據庫信息進行科學、系統的歸類,保證統計數據管理的高效性和使用的便利性。另一種工作方式是一種經濟數據的再加工過程,以鮮明的數據統計、分析目標為指引對原有數據的呈現形式、組成內容和關聯形式進行重新加工,以保證經濟統計數據能夠最大限度地服務于管理者的需求。
1.2綜合應用性強如前文所述,數據挖掘技術是一個工具系統而不是單一的工具,能夠實現使用主體的各種信息需求,隨著現代社會經濟的快速發展,當前我國經濟管理的各個部門都需要大量的經濟統計信息來作為經濟管理決策的基礎。但是因為各個管理部門經濟管理的領域不同、經濟管理的方式不同、經濟的管理權限不同,所以相應的經濟統計數據呈現形式的需求就不同。這就為經濟數據統計系統提出了更高的要求,其不僅要對符合各個經濟管理部門需求的數據內容進行統計,同時要將統計完成的數據換算成各種不同的呈現形式,并根據統計信息的來源和統計信息的計算方式對其可靠性進行評估[2]。最終這些數據信息的輸出格式還應該符合所服務的經濟管理部門管理系統的格式要求,保證統計數據能夠在管理部門的管理系統中正常錄入、應用,數據挖掘技術很好地滿足了上述的復雜經濟數據管理要求,其功能的綜合性促進了其應用深度的提高和范圍的擴大。
1.3宏觀數據庫有利于數據挖掘技術的應用當前因為經濟管理部門的職權較為分散,各個經濟管理部門的經濟統計數據需求不盡相同。所以我國的經濟統計活動絕大多數還采用傳統的經濟統計方法,統計收集的經濟信息存在一定的局限性,不能夠服務于經濟管理活動的整體,或者造成一些數據統計工作的重復,對經濟數據統計工作造成了一系列的質量和效率上的影響。經濟數據統計活動急需一個能夠整合各個統計系統,實現統計數據信息融合的新技術。宏觀經濟統計數據庫為數據挖掘技術的開展提供了平臺,數據管理系統的經濟統計信息要正確無誤,然后經過數據挖掘技術的整合,就能得到更加豐富的數據資源[3]。
2數據挖掘技術的應用
在社會經濟管理活動中,管理主體對經濟統計數據的要求主要有兩個。一個是統計數據的真實性、一個是數據統計信息的實用性。單就這兩個經濟統計數據要求而言,數據挖掘技術能夠很好地滿足經濟統計工作的需求,是適用性極強的一種經濟數據統計技術,其在具體的經濟數據統計活動中主要有以下三種應用方法。
2.1預處理方法在經濟數據統計活動中,最為基礎的一種處理方式就是經濟數據的預處理方法,因為數據挖掘本身是一種基于提供基礎信息的智能分析技術。其本身是受基礎經濟信息限制的,不可能無中生有代替經濟數據收集系統的功能。所以所有作為數據挖掘系統數據基礎的經濟統計數據信息都應該進行預處理,處理的內容主要包括對這些數據中不正確、不真實、不準確,以及不同經濟統計數據信息之間差距較大的現象。對這些基礎數據存在的問題進行處理的過程被稱為數據清理,當前數據清理主要采用的方法有均值法、平滑法和預測法。其中均值法是現代分析技術中模糊理念的一種應用形式,當基礎數據中的一個數據點是空值或者噪聲數據的時候,可以采用均值法進行處理,即用數據庫中所有該屬性已知的屬性均值來填補空缺。保證數據挖掘系統對基礎數據的分析和整理能夠正常進行,得出相對而言準確度較高的統計分析數據。其中Ci表示當前數據點的取值,Cj表示當前數據點前后不為空的數據點,K表示當前數據點進行計算所取的參考數據點數量[4]。平滑法依然是對基礎數據中空值和噪聲數據的計算方法,其與均值法的區別是用加權平均數代替了平均數,考慮了計算過程中提取的每一個數據對數據結果的影響權重,所以計算出的結果往往更加接近真實的數值。其中Ci表示當前數據點的取值,Cj表示當前數據點前后不為空的數據點,K表示為對當前數據點進行計算所取的數據點數量。WJ表示Cj數據點的權值。
2.2集成化處理方法在數據挖掘技術的應用活動中,因為相同地區的數據統計主體不同,或者在不同地區對相同經濟數據的統計標準不統一,會產生一系列的數據集成問題,如何對這些調查方向不同或者是呈現方式不同的數據進行有效集成而不影響經濟數據統計的準確性,是數據挖掘技術的重要任務。在具體的數據集成過程中主要考慮以下幾個方面的問題[5]。
2.2.1模式集成當前因為社會經濟活動中經濟數據的統計內容過于廣泛,很多經濟數據統計并不是來自于官方的統計局而是來自一些民間統計組織,或者是由一線社會經濟主體直接提供的經濟數據,在數據挖掘過程中將這些來自多個數據源存在多種數據呈現模式的經濟數據信息進行集成就涉及實體識別的問題。例如在數據挖掘過程中如何確定一個數據庫中“std-id”與另一個數據庫中的“std-no”是否表示同一實體,當前一般使用數據庫與數據庫之間的含元數據對比來保證實體識別高效率和高質量[6]。
2.2.2冗余問題數據挖掘本身是對經濟統計數據的一種深加工技術,經過其加工的經濟統計技術應該在本質上達到最簡狀態。在數據挖掘過程中要將與其他數據呈現某種正相關關系的數據項目進行精簡,以保證數據庫中數據量維持在一個較低的水平,為數據管理和應用提供便利。在經濟數據挖掘活動中人均國民生產總值就是典型的冗余屬性,因為其數值是可以通過國內生產總值和總人口屬性計算出來的,所以類似人均國民生產總值這種冗余屬性在數據挖掘過程中就應該精簡,應用的時候在利用國民生產總值和人口屬性計算得出[7]。對冗余屬性的判斷主要通過相關度對比來實現。其中n表示元組的個數,分別是屬性A和屬性B的平均值,分別是屬性A和屬性B的標準方差,在這一公式中如果則表示A、B兩個屬性是正相關,也就是說A越大B就越大,值越高二者的正相關關系就越密切;如果則表示屬性A、B之間沒有直接關系,是相互獨立的;如果則表示A、B兩個屬性呈負相關,屬性B會隨著屬性A的減小而增大,的絕對值越大,二者的負相關關聯關系就越密切。
2.3決策樹方法在數據挖掘技術應用過程中,經過系統的分析和總結以后,分析數據的輸出是一個關鍵的環節,其輸出的數據形式會對使用者的經濟管理決策產生直接的影響。決策樹是一種較為常見的、直觀的快速分類方法。其應用的關鍵是決策樹的構建,具體而言主要分為兩步:第一步是利用訓練集建立并精簡一棵決策樹,建立輸出分析的模型;第二步是利用構建完畢的決策樹進行輸入數據的分類,這一分類是一個遞歸的過程,從決策樹的根部開始進入到樹干、枝丫,直到輸入數據的分類滿足了某種條件而停止。在具體的應用中停止分割的條件有兩個:一個是當一個節點上的所有數據都屬于同一個類別的時候;另一個是沒有分類屬性可以對輸入數據進行再分割[8]。在決策樹構建完成后,還要根據使用者的具體要求對決策樹進行“剪枝”,剪枝的主要目的是要降低因為使用訓練集而對決策樹本身數據輸出產生的起伏影響。
3結語
關鍵詞:數據挖掘電子商務數據庫
一、引言
電子商務是指以Internet網絡為載體、利用數字化電子方式開展的商務活動。隨著網絡技術和數據庫技術的飛速發展,電子商務正顯示越來越強大的生命力。電子商務的發展促使公司內部收集了大量的數據,并且迫切需要將這些數據轉換成有用的信息和知識,為公司創造更多潛在的利潤。利用數據挖掘技術可以有效地幫助企業分析從網上獲取的大量數據,發現隱藏在其后的規律性,提取出有效信息,進而指導企業調整營銷策略,給客戶提供動態的個性化的高效率服務。
二、數據挖掘技術
1.數據挖掘
數據挖掘(DataMining),又稱數據庫中的知識發現(KnowledgeDiscoveryinDatabase,KDD),是從大量的、不完全的、有噪聲的、模糊的和隨機的數據中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。數據挖掘是一門廣義的交叉學科,它匯聚了不同領域尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的知識。數據挖掘技術從一開始就是面向應用領域,它不僅是面向特定數據庫的簡單檢索查詢調用,而且,要對數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指定實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。數據挖掘技術在金融、保險、電信、大型超市等積累有大量數據的電子商務行業有著廣泛的應用,如信用分析、風險分析、欺詐檢驗、用戶聚類分析、消費者習慣分析等。
2.數據挖掘過程
挖掘數據過程可以分為3個步驟:數據預處理、模式發現、模式分析。
(1)數據預處理。實際系統中的數據一般都具有不完全性、冗余性和模糊性。因此,數據挖掘一般不對原始數據進行挖掘,要通過預處理提供準確、簡潔的數據。預處理主要完成以下工作:包括合并數據,將多個文件或多個數據庫中的數據進行合并處理;選擇數據,提取出適合分析的數據集合;數據清洗、過濾,剔除一些無關記錄,將文件、圖形、圖像及多媒體等文件轉換成可便于數據挖掘的格式等。
(2)模式發現。模式發現階段就是利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最終可以理解的信息和知識。可用于Web的挖掘技術有路徑選擇、關聯分析、分類規則、聚類分析、序列分析、依賴性建模等等。
(3)模式分析。模式分析是從模式發現階段獲得的模式、規則中過濾掉不感興趣的規則和模式。通過技術手段,對得到的模式進行數據分析,得出有意義的結論。常用的技術手段有:關聯規則、分類、聚類、序列模式等。
三、電子商務中幾種常用的數據挖掘方法
1.關聯規則
關聯規則是數據挖掘研究的主要模式之一,側重于確定數據中不同領域之間的關系,找出滿足給定條件下的多個域間的依賴關系。關聯規則挖掘對象一般是大型數據庫,該規則一般表示式為:A1∧A2∧…Am=>B1∧B2∧…Bm,其中,Ak(k=1,2,…,m),Bj(j=1,2,…,n)是數據庫中的數據項。有Support(A=>B)=P(A∪B),Confidence(A=>B)=P(A|B)。數據項之間的關聯,即根據一個事務中某些數據項的出現可以導出另一些數據項在同一事務中的出現。關聯分析的目的是挖掘出隱藏在數據間的相互關系。關聯規則用于尋找在同一個事件中出現的不同項的相關性,比如在一次購買活動中所買不同商品的相關性。關聯分析的典型例子是購物籃分析,描述顧客的購買行為,可以幫助零售商決定商品的擺放和捆綁銷售策略。如著名的(面包+黃油牛奶)例子就屬于關聯分析:在超市中,90%的顧客在購買面包和黃油的同時,也會購買牛奶。直觀的意義是:顧客在購買某種商品時有多大的傾向會購買另外一些商品。找出所有類似的關聯規則,對于企業確定生產銷售、產品分類設計、市場分析等多方面是有價值的。
2.聚類分析方法
類聚分析就是直接比較樣本中各事物之間的性質,將性質相近的歸為一類,而將性質差別較大的分在不同的類。對變量聚類計算變量之間的距離,對樣本聚類則計算樣本之間的距離。它的目的是使得屬于同一類別的個體之間的距離盡可能小,而不同類別上的個體間的距離盡可能大。
聚類分析用于把有相似特性的客戶、數據項集合到一起。在電子商務中,聚類分析常用于市場細分。根據已有客戶的數據,利用聚類技術將市場按客戶消費模式的相似性分為若干細分市場,以進行有針對性的市場營銷,提供更適合、更滿意的服務。如自動給一個特定的客戶聚類發送銷售郵件,為一個客戶聚類動態地改變一個特殊的站點等。通過對聚類的客戶特征的提取,電子商務網站還可以為客戶提供個性化的服務。
3.分類分析
分類系統是基于遺傳算法的機器學習中的一類,它包括一個簡單的基于串規則的并行生成子系統、規則評價子系統和遺傳算法子系統。分類系統正在被人們越來越多地應用于科學、工程和經濟領域中,是目前遺傳算法研究領域中一個非常活躍的領域。
分類分析是數據挖掘中應用最多的方法。分類要解決的問題是為一個事件或對象歸類,既可以用于分析已有的數據,也可以用來預測未來的數據。分類通過分析已知分類信息的歷史數據,總結出一個預測模型,預測哪些人可能會對郵寄廣告、產品目錄等有反應,可以針對這一類客戶的特點展開商務活動,提供個性化的信息服務。
4.序列模式
序列模式挖掘就是要挖掘出交易集之間有時間序列關系的模式。它挖掘的側重點在于分析數據間的前后或因果關系,找到那些“一些項跟隨另一些項”,以預測未來的訪問模式。序列模式分析和關聯分析類似,其目的也是為了挖掘數據之間的聯系,但序列模式分析的側重點在于分析數據間的前后序列關系。它能發現數據庫中形如“在某一段時間內,顧客購買商品A,接著購買商品B,而后購買商品C,即序列A-B-C出現的頻率較高”之類的知識。序列模式分析描述的問題是:在給定交易序列數據庫中,每個序列是按照交易時間排列的一組交易集,挖掘序列函數作用在這個交易序列數據庫上,返回該數據庫中出現的高頻序列。在進行序列模式分析時,同樣也需要有用戶輸入最小置信度C和最小支持度S。
序列模式便于進行電子商務的組織,預測客戶的訪問模式,對客戶開展有針對性的廣告服務或者主動推薦客戶感興趣的頁面,以滿足訪問者的特定要求。
四、結束語
1數據挖掘技術
常見數據挖掘技術包括:分類樹技術、關聯發現技術、聚類技術、人工神經網絡、最優集合規約技術以及可視數據挖掘技術等。軟件度量數據往往具有多維度、高耦合性,軟件工程數據挖掘中會采用一些特殊處理技術,包括統計分析、回歸建模、分類樹以及神經網絡等。在具體軟件工程實踐中,選擇何種挖掘技術,其決定性因素為想要達成的目標。
2數據挖掘實現過程
通常,數據挖掘過程包括4個步驟,即選擇數據、預處理、實施挖掘以及吸收數據。數據挖掘整個過程具有交互性,有時數據需要重新選擇,有時也要對數據預處理進行改進,也可能出現算法反復被調整現象,基于這種特征,數據挖掘時要設置反饋環。挖掘數據第1步是將管理和目標反映到1個(或多個)挖掘任務中,整個過程可主要劃分成為六種:1)評估、預測。評估包括對軟件產品、過程以及資源的屬性進行相應檢查就是整個評估過程,同時也需要根據這些屬性,賦值給未知屬性,當然這些未知屬性需要進行量化。評估工作完成后,要對屬性值進行預測。2)分類。檢查1個特定實體屬性,根據結果將其劃分到另1個類別或范疇(事先定義好)中。3)關聯發現。關聯發現能夠識別出特定內容中互相存在關聯某些屬性。如,可將找出在軟件開發屬性和產品屬性相互關聯的內容找出來。4)聚類。將1個結構不相同的群體劃分到另1個具有相同結構的子群集合中,這個過程叫做聚類,它的劃分依據是成員之間具有高度相似性。5)數據可視化。數據可視化是利用可視化描述方法來定義復雜信息。6)可視數據探察。可視化數據探察是對描述工作的相應拓展,可利用數據可視化交互控制來分析和檢視海量數據[3]。它應用具有可視化功能和數據挖掘技術來對數據進行處理。
3挖掘技術在軟件工程中應用
上文提及到軟件工程度量,部分可利用信息已在海量數據中被提取出來,但普遍認為更為有效且數量眾多的數據依然在軟件工程相關數據庫中隱藏,而沒有被發現。實際上,數據挖掘就是1種被公認為提升軟件工程度量的技術。圖1為數據挖掘在軟件工程中的應用。
3.1數據挖掘繁榮原因1)計算機硬件系統和軟件系統的基礎設施建立具備發現驅動、分析數據等功能;2)每種技術都在實際應用中不斷得到改進,其使用能力不斷提升。如,模式識別、神經網絡等有明顯進步趨勢;3)數據存儲、貯藏、集成成本不高,海量數據可輕松獲得。數據挖掘技術被人們認識,并在實踐中逐漸被重視,同時也給研究和進一步提高數據挖掘技術提供了便利條件。
3.2面臨挑戰軟件工程自身存在很多數據上的特殊性,給數據挖掘領域研究工作帶來制約和影響,主要表現在以下三個方面:1)數據復雜。軟件工程數據主要分為兩個組成部分,即結構化數據、非結構化數據。結構化數據主要包括缺陷報告、版本信息等內容,而非結構化數據則包含數據代碼、相應注釋以及文檔等內容。結構化數據、非結構化數據并不能同時適用一種算法,而且兩種數據間還存在對應聯系。如,1個缺陷報告中往往包括缺陷代碼段。而結構化數據里常常涵蓋部分非結構化信息,非結構化數據中亦是如此,這也是今后工作中需要重點解決的問題之一。2)非傳統分析存在局限。數據挖掘最終想實現的目標就是將轉化而來的信息傳達給用戶,實現信息共享。傳統數據挖掘技術在使用過程中,信息手段比較單一,如文字、圖表等表達形式。其實,軟件開發商對信息的要求很高,1個統計結果根本不能滿足其工作需求。為促進軟件開發不斷向上發展,開發人員需要相關信息作為參考依據,包括開發實際案例、編程所需模板、系統缺陷定位以及軟件結構設計等。研究數據挖掘技術,提升其實際使用功能,需要不斷提交新信息、新知識,并改進相應手方法。3)挖掘結果評價標準不夠具體。軟件工程數據挖掘尚未形成完善的結果表示體系,其評價體系也有待加強。人員在軟件開發過程中需要大量信心,這些信息非常具體且復雜,表示方法不盡相同,互相之間難以做出對比,也很難用定量方法去分析挖掘結果。
4結束語
“數據挖掘”是在發展過程中被人們定義的,但軟件工程中對此類數據的研究早就存在。數據挖掘技術能夠為研究軟件工程數據提供方便,具有重要應用價值。因此,筆者認為將兩者充分結合是計算機信息技術發展的必然趨勢。若以過程角度來看,軟件工程涉及到數據挖掘各個周期、階段,甚至是具體實施步驟;以技術角度看,數據挖掘在軟件工程中應用廣泛。數據挖掘技術雖然在實踐中取得一定應用效果,但還有更廣闊的空間沒有內充分挖掘出來,為廣大從業人員提供創新空間。
作者:賀瑋單位:同濟大學軟件學院
1.1安全技術資金不足
煤炭的持續開采會受到地質條件的直接影響,過去國家投入眾多的設施,使用至今均已出現老化,并且維修量非常大。隨著礦井的不斷延深,礦壓極度強化,巷道的維修任務更是不斷的增加,礦井的供電以及通風、提升與排水等都不能適應生產的需要。
1.2安全管理模式傳統
與西方發達產煤國家相比較,我國的煤礦使用技術研究起步很晚。并且人力、財力非常缺乏,某些重大的安全技術問題,比如沖擊地壓以及煤和瓦斯的突出、地熱以及突水等災害不能進行有效的預測和控制。且受到以往傳統運營思想的直接作用與影響以及各個企業的經濟實力的約束,我國的煤礦生產裝備和安全監控設施相對落后。井巷的斷面設計以及支護強度的確定、支護材料的型號選擇較小。生產設施功率以及礦井的供風量等富余參數非常低,極易出現事故。絕大多數的煤炭企業還是利用以往傳統的安全管理模式,各種報表計算仍是靠人工勞動并且精確度很低。信息傳送的時間較長,且速度較慢,管理者的工作重復性很大,資料查詢十分困難,并且工作效率很低。安全檢查以及等級鑒定等總是憑借主觀意念以及相關的經驗。
1.3安全信息管理體制不健全
安全信息可以說是安全管理工作的重要依據,它主要包括事故和職業傷害的有效記錄與分析統計,職業的安全衛生設施的相關研究與設計、生產以及檢驗技術,法律法規以及相應技術標準和其變化的動態,教育培訓以及宣傳和社會活動,國內的新型技術動態以及隱患評估與技術經濟類分析和咨詢、決策的體系。信息體制的健全是安全體制工程以及計算機技術的有效結合,可促使安全工作轉型為定性和定量的超前預測,不過大多數礦井還是處于起步與摸索階段,并未呈現出健全的體制,真正的使用還有待進一步的發展。
2空間數據挖掘技術
數據挖掘研究行業的持續進展,開始由起初的關系數據以及事務數據挖掘,發展至對空間數據庫的不斷挖掘。空間的信息還在逐漸地呈現各類信息體制的主體與基礎。空間數據是一項非常關鍵的數據,具有比普通關系數據庫和事務數據庫更豐富、復雜的相關語義信息,且蘊含了更豐富的知識。所以,雖說數據的挖掘最初是出現在關系數據挖掘以及事務的數據庫,不過因為空間數據庫中的發掘知識,這就很快引起了各個研究者的關注與重視。很多的數據挖掘類研究工作都是從關系型以及事務型數據庫拓展至空間數據庫的。在地學領域中,隨著衛星以及遙感技術的不斷使用,逐漸豐富的空間以及非空間的數據采集與儲存在較大空間數據庫中,大量的地理數據已經算是超過了人們的處理能力,并且傳統的地學分析很難在這些數據中萃取并發現地學知識,這也就給現階段的GIS帶來了很大的挑戰,急切的需要強化GIS相應的分析功能,提升GIS處理地學實際狀況的能力。數據挖掘以及知識發現的產生能滿足地球空間的數據處理要求,并推進了傳統地學空間分析的不斷發展。依據地學空間數據的特性,把數據挖掘的方式融進GIS技術中,呈現地學空間數據挖掘和知識發展的新地學數據分析理念與依據。
3煤礦安全管理水平的提升
3.1建設評價指標體制庫
評價指標體制庫是礦井的自然災害危害存在的具體參數式的知識庫。模型的組建務必要根據礦井的瓦斯以及水害等自然災害危害呈現的不同指標體制和其臨界值構建一定的指標體制庫,危害的警報識別參數關鍵是采掘工程的平面圖動態開采面以及相應的巷道。各種瓦斯的危害以及水害隱患和通風隱患均呈現一定的評價指標庫。
3.2構建專業的分析模型庫
依據瓦斯以及水害等諸多不同的礦井自然災害類別構建相關的專業性模型庫,比如瓦斯的災害預測,應根據礦井的地質條件以及煤層所賦存的狀況構建瓦斯的地質區分圖,再根據采掘工程的平面圖動態呈現的采掘信息以及相應的瓦斯分區構建關聯并實行相應的比較分析,確定可以采集區域未來的可采區域是不是高瓦斯區域。
3.3構建以GIS空間分析為基礎的方法庫
GIS空間分析可以說是礦井自然災害的隱患高度識別的關鍵性方式,并且還是安全故障警報的主要路徑。比如斷層的防水層的有效劃分,關鍵是根據斷層的保安煤柱來實行可靠的確定。斷層的保安煤柱確定可以利用GIS緩沖區域的分析得到。空間的統計分析以及多源信息有效擬合和數據挖掘亦是瓦斯和水害等安全隱患監測經常使用GIS空間分析方式,如物探水文的異常區域確定以及瓦斯突出相應的危險區域確定。
3.4決策支持體制與煤礦管理水平
評價指標體制庫以及模型庫、方式庫與圖形庫均是礦井的自然災害隱患識別和決策的最基礎。利用礦井的自然災害隱患識別決策來支持體系具體的功能呈現礦井的自然災害隱患識別以及決策分析,在根源處提高煤礦的安全管理水平。分類構建礦井的自然災害實時監控體系,進行動態跟蹤相應的災害實時數據,并事實呈現礦井的自然災害數據或是信息和自然災害的指標體系庫以及模型庫與知識庫、空間數據庫的合理化比較,并運用圖形庫的數據再通過GIS空間分析方式來確定安全隱患的,礦井自然災害的隱患實時警報并進行決策分析,以提交空間數據的自然災害隱患識別以及分析處理的決策性報告。
4結語
關鍵詞:遠程開放教育,數據挖掘,應用,智能化
1 前言
現代遠程開放教育的全過程基本上都是通過瀏覽網站的形式進行的,學生在Web上的行為都會產生大量的信息,這些信息在遠程教育的全過程中十分寶貴,充分挖掘這些信息及其背后潛在的信息,反饋來指導遠程教育中的各個環節,以此來為學生提供個性化的服務內容,增強遠程開放教育的競爭力。利用數據庫技術來存儲管理數據,利用網絡和計算機學習的方法來分析數據,從而挖掘出大量的隱藏在數據背后的知識,即數據庫中的知識發現---KDD(Knowledge Discovery in Databases),其中,數據挖掘技術便是最為關鍵的環節。論文參考網。基于遠程開放教育將是當前和未來教育的重要輔助系統,本文提出并介紹信了把數據挖掘技術應用于現代遠程開放教育系統中。
2 數據挖掘概述
2.1數據挖掘(DataMining)定義
數據挖掘就是從大量存儲的數據中,利用模式識別、統計和數學的技術,篩選發現新的有意義的關系、模式和趨勢的方法。就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它主要依靠人工智能、機器學習和統計學技術,對數據進行歸納推理,從中挖掘出潛在的模式,預測未來趨勢,為決策提供支持。
2.2數據挖掘的主要任務
(1)關聯分析。兩個或兩個以上變量的取值之間存在的規律性稱為關聯。數據關聯是數據庫中存在的一類重要的、可被發現的知識。關聯分析的目的是找出數據庫中隱藏的關聯網。
(2)聚類分析。聚類是把數據按照相似性歸納成若干類別,同一類中的數據彼此相似,不同類中的數據相異。
(3)分類。分類就是找出一個類別的概念描述,它代表了這類數據的整體信息。
(4)預測。預測是利用歷史數據找出變化規律,建立模型,并由此模型對未來數據的種類及特征進行預測。
(5)時序模式。時序模式是指通過時間序列搜索出的重復發生概率較高的模式。它是用己知的數據預測未來的值,但這些數據的區別是變量所處時間的不同。
(6)偏差分析。在偏差中包括很多有用的知識,數據庫中的數據存在很多異常情況,發現數據庫中數據存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結果與參照之間的差別。
2.3數據挖掘對象
根據信息存儲格式,用于挖掘的對象有關系數據庫、面向對象數據庫、數據倉庫、文本數據源、多媒體數據庫、空間數據庫、時態數據庫、異質數據庫以及Internet等。
2.4數據挖掘技術實施的步驟
(1)確定業務對象。清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步。挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數據挖掘而數據挖掘則帶有評價,并以用戶能理解和觀察的方式將發現的知識呈現給用戶。
(2)數據準備。這個階段的工作包括數據集成、數據選擇、預分析和轉換。要對Web服務器上的數據進行挖掘,必須研究站點之間異構數據的集成問題,只有將這些站點的數據都集成起來,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取所需的東西。
(3)數據挖掘。這個階段就是利用數據挖掘工具對經過轉換的數據進行挖掘和發現知識的過程。不同的數據挖掘工具有不同的算法,面向不同的分析需求,并且當具體使用操作時,也在一定程度上受到數據分析人員的思維方式和行為習慣的影響。數據挖掘利用人工智能領域中一些已經成熟的算法和技術。如:人工神經網絡、遺傳算法、決策樹方法、鄰近搜索算法、規則推理、模糊邏輯、公式發現等來進行數據的挖掘。
(4)結果分析。論文參考網。數據挖掘的結果由分析人員根據發現知識的領域重要性、可信度和支持度等閥值來對發現結果進行評價,并以用戶能理解和觀察的方式將發現的知識呈現給用戶。通常會用到可視化技術。
(5)知識的同化。將分析所得到的知識集成到業務信息系統的組織結構中去。
3 現代遠程開放教育系統簡介
遠程開放教育系統能實現個性化學習、實時教學、實時考試和智能答疑。為每一個接受網絡遠程教育的學習者提供個性化的學習進程。能根據與當前學習者相類似的學生的學習模式自動地對其后繼知識的學習進行預測以及合理推薦,并對學習者的學習過程進行分階段的評價,依據其績效信息動態調整其學習難度、練習與測試內容,對學生提出的問題實現智能化答疑,對該學習者薄弱環節進行有效指導,做到因材施教和全天候學習。
遠程開放教育系統由用戶系統、WEB服務器、應用服務器、數據服務器、用戶數據庫和資源數據庫組成。
用戶系統用于實現遠程開放教育系統的顯示功能,其功能是:實現信息的和接受,管理員通過它來實現系統的管理、更新、維護等,主要是通過XML語言和HTTP協議實現WEB瀏覽器與WEB服務器的鏈接和信息通訊。WEB服務器用于完成遠程開放教育系統的事務處理,用于處理學習過程中的各種事務。應用服務器直接為WEB服務器提供相關服務,處理WEB服務器以及XML文檔組成的用戶的事務請求信息。論文參考網。數據庫服務器用于完成數據處理,為應用服務器提供相關服務,完成數據查詢、修改和更新等服務,并把運行結果反饋給應用服務器。資源數據庫中主要由遠程開放教育系統中要使用的課件庫、答疑庫、作業庫、試題庫和必要的超級鏈接等構成。用戶數據庫主要用于存儲遠程開放教育系統中要使用的的注冊檔案、用戶目前的學習內容、學習進展、作業情況和考試情況等信息。
4 數據挖掘技術在遠程開放教育中的應用
現代遠程開放教育是隨著現代信息技術的發展而產生的一種新型教育形式,其基本特征是利用計算機網絡和多媒體技術,提供豐富的教學資源供學習者選用,教學形式由原來的以教為主變為以學為主。數據挖掘技術在現代遠程開放教育中的應用主要有以下幾方面:
(1)在個性化學習方面的應用
由于每個學習者的知識背景、學習習慣和學習目標都不一樣,故個性化學習在遠程開放教育中就顯得非常重要。為了實現此功能,基于WEB的智能遠程開放教育系統首先要根據學習者的特點和學習目標來收集學習者的數據信息,然后對收集到的信息進行預處理,再應用一種合理的挖掘算法或綜合應用不同的算法,如關聯規則分析、聚類和分類技術、統計分析以及時序模式技術等,來處理此數據,最終發現用戶的訪問模式,但是通過模式挖掘后,生成的規則數目大、表達晦澀且不好用,這時就需要用到智能查詢機制、可視化和聯機分析等技術對模式進行分析評價,經過模式分析和應用技術處理后,選擇一種學習者易于理解和接受的表達方式將知識數據顯現出來。利用數據挖掘與學習內容綁定的技術,系統就可以以可視化方式來指導學習者學習和個性化發展,這樣系統就實現了個性化學習功能。
(2)在資源庫建設方面的應用
資源庫建設在整個系統中至關重要,為了建立覆蓋面廣、功能齊全的資源庫,我們就必須編制信息資源目錄,征集種類資源信息,并進行資源、資源信息篩選、資源信息整理和存儲;同時按學科門類建設積件庫。當老師在系統內制作課件,為了有針對性和避免重復,我們可以對所有學習者已選的課程進行聚類,并通過聚類學習算法來自動確定每門課程的類別標記。接著利用數據挖掘中的關聯規則,估計出一組相關同位類課程,再利用泛化關聯規則,找到其上位類課程,或利用序列模式,預測出與之有關的學生未來可能選擇的同級課程,最后圍繞學習者的需求權限進行課程設置。
(3)在實時教學方面的應用
在本系統中,由于引入了互聯網技術、人工智能技術、數據庫技術和知識發現技術,通過機器學習、統計分析等方法設計出了個性化處理引擎,從大量的數據中進行數據挖掘,提取有用的、潛在的信息。學生可以通過網絡實現每天24小時的學習,而且本系統可以更多且及時的了解到學生的學習學習進度、需求、能力、興趣愛好等方面的信息,并動態地根據這些信息調整學習計劃和進度,讓學生得到針對其“個性”的教育,實現因材施教。
(4)在智能答疑方面的應用
基于WEB的遠程教學系統中的智能答疑系統只要用戶能上網,就可解答學生在學習過程中產生的問題。它能根據學生用戶訪問日志、問題記錄等數據進行數據挖掘,用智能抽取的方法實現智能答疑。從用戶訪問日志和提問信息里面可以分析出學生的行為。智能答疑系統后臺存儲了大量的由經驗豐富的教師精心挑選的問題答案,對于用戶提出的問題.系統首先通過對問題的分析自動在數據庫中尋找最適合的答案。這樣通過數據挖掘,針對學生用戶提問記錄、日志不斷更新和調整學生用戶知識庫,使問題的回答更加精確。
(5)在實時考試方面的應用
本系統的實時考試系統是一個基于數據庫和WEB的遠程在線式實時的測試系統。它能考慮個別學習者的能力和特性,按照考試的目的和必要性,提供各種問項信息,如難易程度、辨別程度等。并且還能同步打分,提供成績進展情況,根據個人特性解釋問題,按個人及科目對考試結果進行各種統計分析和評價,并存入學生用戶數據中。這些功能的實現是由于系統采用關聯規則、聚類和分類工具對數據庫中抽取的數據進行處理,分析出學生的特性及其對課程各知識點的掌握程度,并結合學生的考試目的恰當地反饋給學生,這樣提高了學生學習的效率。
5 結束語
在現代遠程開放教育網站設計中,基于XML(ExtensibleMarkup Language,可擴展標記語言)的新一代系統設計環境,可以更好地描述半結構化和結構化的數據,更有利于進行數據搜索和挖掘。如何整合XML和Web服務技術,以此為契機開展數據挖掘和知識獲取,在現代遠程開放教育網站的設計中以學習者為中心,提供一種基于資源的學習,教學資源可以適應各種學習者的需要和背景進行不同的組合,提供更加優良的、個性化的服務。
參考文獻:
[1]李爽,陳麗.國內外網上智能答疑系統比較研究[J].北京,中國電化教育,2003(5)
[2]蘇新寧.數據挖掘理論與技術[M].北京:科學技術文獻出版社,2003
[3]趙丹群.數據挖掘:原理、方法及其應用[J].現代圖書情報技術,2000,(6)
[4]周云真,舒建文,王平根.據挖掘在基于WEB的智能遠程教育系統中的的應用[J] .南京:文教資料,2006(10)
摘 要 數據挖掘面對海量數據信息進行選擇與運用,在軟件工程快速發展的潮流中具有舉足輕重的作用。數據挖掘應對數據豐富而知識匱乏的挑戰,著眼于數據實用性對軟件工程知識庫的數據進行深度挖掘。關鍵詞 數據挖掘 軟件工程 技術中圖分類號:TP311
文獻標識碼:A
計算機領域新技術應用使各行業生成、收集和存儲了大量數據。大量信息數據給社會帶來方便也帶來大堆問題:信息過量,難以消化;信息真假難以辨識;信息安全難以保證;信息形式不一致而難以統一處理。一般數據庫系統可高效實現數據錄入、查詢與統計等功能,卻無法發現數據存在的關系和規則。如何辨析信息和如何不被信息淹沒已經成為現實問題。一、數據挖掘直面數據豐富而知識匱乏的挑戰
面對信息社會帶來的“數據豐富而知識匱乏”的現實挑戰,數據挖掘(Data Mining,DM)和知識發現(Knowledge Discovery,KD)技術應運而生,伴隨計算機新技術和新理論的出現而發展,在電信與銀行,生物及大型超市等領域運用效果顯著。數據挖掘有時又稱作數據庫知識發現(KDD),此術語出現于1989年,從數據集識別有效與新穎的,潛在有用的,最終可理解的模式過程。KDD過程常指多階段處理,包括數據準備與模式搜索,知識評價及反復修改求精;該過程要有智能性和自動性。有效性指發現新數據仍保持可信度,新穎性要求模式應是新的,潛在有用性指發現的知識將來有效用,最終可理解性要求發現模式能被用戶所理解,幾項綜合在一起稱為數據的科學性豍。
數據挖掘的界定。數據挖掘是從存放在數據庫與數據倉庫或其它存儲信息庫中的海量數據挖掘有趣知識過程。一般的定義是:數據挖掘是從大量、不完全、有噪聲、模糊、隨機的數據中抽取隱含其中,事先不為人所知、潛在、有效、新穎、有用和最終可理解知識的過程。研究人工智能學術人員和計算機技術專家通常所說數據挖掘名稱各異但實質一樣。自然世界數據以多種多樣形式存放,除最常見數字與字符等類型,還有許多復雜數據。復雜類型數據挖掘包括:空間數據挖掘和多媒體數據挖掘,時序數據挖掘和文本數據挖掘,Web數據挖掘與流數據挖掘等。數據挖掘與傳統數學統計分析有區別,數據挖掘在沒有明確假設前提下自動建立方程,可采用不同類型如文本、聲音、圖片等的數據挖掘興趣模式;統計數據分析工具側重被動分析,需建立方程或模型來與假設吻合,最終面對數字化數據;數據挖掘是主動發現型與預測型數據分析工具,分析重點在于預測未來未知潛在情況并解釋原因。二、軟件工程的產生與數據實用性
軟件工程概念源自軟件危機,20世紀60年代末的“軟件危機”這個詞語頻繁出現計算機軟件領域,泛指計算機軟件開發和維護所遇到的系列嚴重問題。在軟件開發和維護過程中的軟件危機表現為軟件需求的增長得不到滿足,軟件開發成本和進度無法控制,軟件質量難保證,軟件維護程度非常低,軟件成本不斷提高,軟件開發生產率趕不上計算機硬件發展和各種應用需求增長等。軟件危機產生的宏觀原因是軟件日益深入社會生活,軟件需求增長速度超過軟件生產率提高,具體軟件工程任務的許多困難來源于軟件工程所面臨任務和其他工程之間各種差異以及軟件和其他工業產品的差異,即特殊性。軟件開發和維護過程存在的問題,與計算機軟件本身特點有關,軟件開發過程進度很難衡量,軟件質量難以評價,管理和控制軟件開發過程困難等。計算機軟件專家認真研究解決軟件危機方法,逐步形成軟件工程概念,開辟工程學新領域即軟件工程學。軟件工程用工程、科學和數學原理與方法研制與維護計算機軟件有關技術及管理的方法。
軟件工程針對數據的處理具有系統的規范的系列辦法。1993年IEEE(電氣和電子工程師學會)給軟件工程綜合定義為:將系統化、規范和可度量的方法應用于軟件開發、測試、運行和維護全過程,即將工程化應用于軟件數據等設計中。軟件工程包括方法、工具和過程三個要素,方法是完成軟件工程項目技術手段;工具支持軟件開發、管理與文檔生成;過程支持軟件開發各個環節控制與管理。軟件工程的發展伴隨計算機與數據等相關技術的發展而進步。三、軟件工程的知識庫應用數據挖掘技術
蘊含數據的特殊軟件的生命周期也是一個極其復雜演變過程,各個階段都會產生大量軟件數據。在設計文檔與程序源代碼,交流歷史與Bug報告,軟件運行日志等方面產生的大量數據,必然存在著對軟件開發和維護具有重要價值的信息。如能充分利用數據挖掘技術發現這些數據隱藏的知識,可提高開發效率并避免錯誤,增強軟件系統運行穩定性和可信性。利用數據挖掘技術處理軟件產生大量數據想法在上世紀70年代就出現,但直到最近軟件數據挖掘領域才受到越來越多學者關注豏。軟件工程國際會議出現關于軟件數據挖掘研究工作組,許多數據挖掘會議與期刊陸續出現多篇高質量與軟件工程相關學術論文,軟件數據挖掘已成為越來越關注熱點的研究領域。
軟件數據挖掘針對軟件工程版本控制,設計文檔及程序源代碼演化歷史等進行挖掘,同時,我們也可設計軟件工程數據倉庫來統一存儲這些可利用的大量軟件的數據。應用傳統數據挖掘的經典算法來處理存放在軟件知識庫的各種數據,提取有用信息來輔助軟件設計、開發與維護。會為開發人員提供有效的幫助。通過利用關聯規則挖掘算法尋找那些經常被一起改變的實體如類、變量、函數、數據類型與控制語句等;或者利用關聯規則挖掘源代碼修改模式,挖掘存放在代碼庫軟件修改歷史模式;或者應用關聯規則挖掘實體間依賴性,改進系統架構相關研究;或者通過對用戶操作日志與系統運行狀態日志研究,建立基于用戶操作模式系統穩定性預測模型等等。
總之,軟件工程數據集軟件知識庫包含的關于軟件工程演化歷史大量有價值的信息數據,為研究和利用這兩類優質數據,數據挖掘技術大有可為。 注釋:連一峰等.基于模式挖掘的用戶行為異常檢測.計算機學報,第25卷第3期.2002,3.毛國君等編著.數據挖掘原理與算法.清華大學出版社,2007,1.王磊.基于用戶操作模式的系統穩定性研究.廣西師范大學碩士論文.2009,7.