0
首頁 精品范文 數(shù)據(jù)挖掘總結(jié)

數(shù)據(jù)挖掘總結(jié)

時間:2022-11-25 15:36:49

開篇:寫作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數(shù)據(jù)挖掘總結(jié),希望這些內(nèi)容能成為您創(chuàng)作過程中的良師益友,陪伴您不斷探索和進步。

數(shù)據(jù)挖掘總結(jié)

第1篇

關(guān)鍵詞:數(shù)據(jù)挖掘;應(yīng)用;研究

一 、數(shù)據(jù)挖掘

隨著數(shù)據(jù)庫技術(shù)的廣泛使用,以及計算技術(shù)和計算機性能與網(wǎng)絡(luò)的迅速發(fā)展,人們面臨著一個困難的問題,即如何從海量的數(shù)據(jù)中提取出有價值的信息。查詢功能遠不能滿足人們的需要,數(shù)據(jù)挖掘應(yīng)運而生。有人將數(shù)據(jù)挖掘定義為一個從數(shù)據(jù)及數(shù)據(jù)庫中抽取隱含的,先前未知的并有潛在價值的信息的過程。但有人認為數(shù)據(jù)挖掘,即數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從大數(shù)據(jù)集中快速高效地發(fā)現(xiàn)令人感興趣的規(guī)則,數(shù)據(jù)挖掘是數(shù)據(jù)庫研究的新領(lǐng)域,所挖掘的知識能夠用于信息、管理、查詢處理、決策支持和過程控制等等。

數(shù)據(jù)挖掘(DataMining)是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示三個步驟。隨著計算機網(wǎng)絡(luò)的發(fā)展和普遍使用,數(shù)據(jù)挖掘成為迫切需要研究的重要

課題。

數(shù)據(jù)挖掘涉及多個學科方向,主要包括:數(shù)據(jù)庫、統(tǒng)計學和人工智能等。數(shù)據(jù)挖掘可按數(shù)據(jù)庫類型、挖掘?qū)ο蟆⑼诰蛉蝿?wù)、挖掘方法與技術(shù)以及應(yīng)用等幾方面進行分類。按數(shù)據(jù)庫類型分類:關(guān)系數(shù)據(jù)挖掘、模糊數(shù)據(jù)挖掘、歷史數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘等多種不同數(shù)據(jù)庫的數(shù)據(jù)挖掘類型。按數(shù)據(jù)挖掘?qū)ο蠓诸悾何谋緮?shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘。按數(shù)據(jù)挖掘的任務(wù)有:關(guān)聯(lián)分析、時序模式、聚類、分類、偏差檢測、預(yù)測等。按數(shù)據(jù)挖掘方法和技術(shù)分類:歸納學習類、仿生物技術(shù)類、公式發(fā)現(xiàn)類、統(tǒng)計分析類、模糊數(shù)學類、可視化技術(shù)類。

二、數(shù)據(jù)挖掘的主要任務(wù)

(一)數(shù)據(jù)總結(jié)

數(shù)據(jù)總結(jié)目的是對數(shù)據(jù)進行濃縮,給出它的總體綜合描述。通過對數(shù)據(jù)的總結(jié),數(shù)據(jù)挖掘能夠?qū)?shù)據(jù)庫中的有關(guān)數(shù)據(jù)從較低的個體層次抽象總結(jié)到較高的總體層次上,從而實現(xiàn)對原始基本數(shù)據(jù)的總體把握。

(二)分類

分類的主要功能是學會一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能夠根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中。即:分析數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,確定哪些數(shù)據(jù)屬于哪些組。這樣我們就可以利用該模型來分析已有數(shù)據(jù),并預(yù)測新數(shù)據(jù)將屬于哪一個組。

(三)關(guān)聯(lián)分析

數(shù)據(jù)庫中的數(shù)據(jù)一般都存在著關(guān)聯(lián)關(guān)系,也就是說,兩個或多個變量的取值之間存在某種規(guī)律性。這種關(guān)聯(lián)關(guān)系有簡單關(guān)聯(lián)和時序關(guān)聯(lián)兩種。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),描述一組數(shù)據(jù)項目的密切度或關(guān)系。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)是否存在精確的關(guān)聯(lián)函數(shù),,即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有置信度,置信度級別度量了關(guān)聯(lián)規(guī)則的強度。

(四)聚類

當要分析的數(shù)據(jù)缺乏描述信息,或者是無法組織成任何分類模式時,可以采用聚類分析。聚類分析是按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合。每一個集合中的數(shù)據(jù)性質(zhì)相近,不同集合之間的數(shù)據(jù)性質(zhì)相差較大。

統(tǒng)計方法中的聚類分析是實現(xiàn)聚類的一種手段,它主要研究基于幾何距離的聚類。人工智能中的聚類是基于概念描述的。概念描述就是對某類對象的內(nèi)涵進行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。

三、數(shù)據(jù)挖據(jù)的應(yīng)用

數(shù)據(jù)挖掘技術(shù)源于商業(yè)的直接需求,因此它在各種商業(yè)領(lǐng)域都存在廣泛的使用價值。現(xiàn)在已經(jīng)應(yīng)用數(shù)據(jù)挖掘技術(shù)的領(lǐng)域都是信息量大、環(huán)境復(fù)雜、需要知識幫助進行管理和決策的領(lǐng)域。下面介紹一些目前比較活躍的應(yīng)用方向:

(一)在金融數(shù)據(jù)分析中的應(yīng)用

多數(shù)銀行和金融機構(gòu)都提供了豐富多樣的儲蓄,信用,投資,保險等服務(wù)。他們產(chǎn)生的金融數(shù)據(jù)通常比較完整、可靠,這對系統(tǒng)化的數(shù)據(jù)分析和數(shù)據(jù)挖掘相當有利。在具體的應(yīng)用中,采用多維數(shù)據(jù)分析來分析這些數(shù)據(jù)的一般特性,觀察金融市場的變化趨勢;通過特征選擇和屬性相關(guān)性計算,識別關(guān)鍵因素,進行貸款償付預(yù)測和客戶信用分析;利用分類和聚集的方法對用戶群體進行識別和目標市場分析;使用數(shù)據(jù)可視化、鏈接分析、分類、聚類分析、孤立點分析、序列模式分析等工具偵破洗黑錢和其他金融犯罪行為。

(二)在電力業(yè)的應(yīng)用

在電力行業(yè)中,數(shù)據(jù)挖掘技術(shù)主要用于指導設(shè)備更新、業(yè)績評估、指導電力企業(yè)的建設(shè)規(guī)劃、指導電力的生產(chǎn)和購買、指導電力的調(diào)度等。數(shù)據(jù)挖掘在電力企業(yè)的其它方面也有巨大的用處,比如說指導項目管理、安全管理、資源管理、投資組合管理、活動分析、銷售預(yù)測、收入預(yù)測、需求預(yù)測、理賠分析等。

(三)在零售業(yè)中的應(yīng)用

零售業(yè)是數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域,這是因為零售業(yè)積累了大量的銷售數(shù)據(jù),如顧客購買史記錄、貨物進出、消費與服務(wù)記錄以及流行的電子商務(wù)等等都為數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)資源。零售數(shù)據(jù)挖掘有助于劃分顧客群體,使用交互式詢問技術(shù)、分類技術(shù)和預(yù)測技術(shù),更精確地挑選潛在的顧客;識別顧客購買行為,發(fā)現(xiàn)顧客購買模式和趨勢,進行關(guān)聯(lián)分析,以便更好地進行貨架擺設(shè);改進服務(wù)質(zhì)量,獲得更好的顧客忠誠度和滿意程度;提高貨品的銷量比率,設(shè)計更好的貨品運輸與分銷策略,減少商業(yè)成本;尋找描述性的模式,以便更好地進行市場分析等等。

(四)在醫(yī)學上的應(yīng)用

近年來,生物醫(yī)學研究有了迅猛地發(fā)展,從新藥的開發(fā)到癌癥治療的突破,到通過大規(guī)模序列模式和基因功能的發(fā)現(xiàn),進行人類基因的識別與研究。在人類基因研究領(lǐng)域具有挑戰(zhàn)性的問題是從中找出導致各種疾病的特定基因序列模式。由于數(shù)據(jù)挖掘中已經(jīng)有許多有意義的序列模式分析和相似檢索技術(shù),因此數(shù)據(jù)挖掘成為DNA分析中的強有力工具。基因序列的相關(guān)分析,遺傳研究中的路徑分析等。近期DNA分析的研究成果已經(jīng)促成了對許多疾病和殘疾基因成因的發(fā)現(xiàn),以及對疾病診斷、預(yù)防和治療的新藥物、新方法的發(fā)現(xiàn)。

(五)在高校和科研單位以及其他領(lǐng)域的應(yīng)用

主要是用于海量信息數(shù)據(jù)的抽取,提供給教研和科研人員有價值的數(shù)據(jù)。比如在數(shù)字圖書館方面可以引入數(shù)據(jù)挖掘技術(shù)。同時還可以應(yīng)用的電子商務(wù)等等眾多領(lǐng)域。

參考文獻

[1]鄒先霞、王淑禮、魏長華.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)淺談[J].高等函授學報(自然科學版),2000,(03).

第2篇

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;電子商務(wù);教學設(shè)計

0引言

近幾年,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和對人們工作生活的不斷滲透,隨著移動互聯(lián)、物聯(lián)網(wǎng)、云計算、智慧工程等新興信息技術(shù)的出現(xiàn)和普及,數(shù)據(jù)在人們的生活中呈爆炸式增長,人們開始進入大數(shù)據(jù)時代。由于海量數(shù)據(jù)中記錄了企業(yè)的發(fā)展、運營以及人們生活和行為的點點滴滴,所以,挖掘海量數(shù)據(jù)背后存在的模式、規(guī)律和趨勢,并結(jié)合各行各業(yè)進行創(chuàng)新應(yīng)用,已經(jīng)成為這個時代的重要課題。我國電子商務(wù)經(jīng)過近20年的發(fā)展和數(shù)據(jù)累積,已經(jīng)從用戶為王、銷售為王進入到數(shù)據(jù)為王的階段,如何針對用戶消費行為的分析,提升電子商務(wù)的運營效率,促進精準營銷的開展,增加客戶黏性,從而實現(xiàn)電子商務(wù)的智能化發(fā)展,是當前電子商務(wù)發(fā)展的重中之重。因此,在大數(shù)據(jù)背景下,為適應(yīng)行業(yè)發(fā)展需求,國內(nèi)外很多高校,尤其是應(yīng)用型本科院校,在電子商務(wù)專業(yè)本科生中陸續(xù)開設(shè)大數(shù)據(jù)分析與挖掘系列的課程,其中作為大數(shù)據(jù)研究與應(yīng)用的重要支撐技術(shù)的數(shù)據(jù)挖掘,是其中一門重要課程。

1電子商務(wù)專業(yè)開設(shè)數(shù)據(jù)挖掘課程的必要性

1.1行業(yè)發(fā)展的必然要求

進入大數(shù)據(jù)時代,“互聯(lián)網(wǎng)+”技術(shù)與傳統(tǒng)行業(yè)深度融合,電子商務(wù)數(shù)據(jù)已覆蓋了從用戶、商家、第三方、物流等一系列商務(wù)環(huán)節(jié)。因此,充分利用大數(shù)據(jù),有效分析和挖掘大數(shù)據(jù)的價值和規(guī)律,已成為推動電子商務(wù)深化發(fā)展的重要引擎。首先,數(shù)據(jù)挖掘技術(shù)是電子商務(wù)智能化的基礎(chǔ)。由于電子商務(wù)的活動從開始就具備了信息電子化的先天優(yōu)勢,所以,用戶在電子商務(wù)網(wǎng)站上發(fā)生的所有行為信息都被日志記錄,包括用戶對產(chǎn)品的搜索、瀏覽、在購物車加入或取出商品、收藏產(chǎn)品、對商品的討論、評價、分享等。對這些用戶行為信息進行收集和分析,可以挖掘用戶的興趣特征和潛在需求,實現(xiàn)對用戶的個性化推薦。其次,數(shù)據(jù)挖掘技術(shù)支撐電子商務(wù)的精細化營銷的實現(xiàn)。通過網(wǎng)絡(luò)爬蟲收集用戶在消費過程種對商品的興趣、偏好、評價等數(shù)據(jù),并進行分析挖掘,可以更好地對用戶進行細分,針對性地制定營銷策略,更準確地把握用戶態(tài)度和對產(chǎn)品的情感傾向,及時控制營銷中的不良影響,從而提升用戶體驗和用戶黏性。第三,數(shù)據(jù)挖掘技術(shù)推動電商物流的優(yōu)化。通過對電商物流數(shù)據(jù)的分析和挖掘,可以預(yù)測市場需求變化的規(guī)律,幫助企業(yè)合理地進行庫存管理和控制,優(yōu)化配送路線,進行物流中心選址策略分析等。可見,對于電子商務(wù)專業(yè)大學生開設(shè)數(shù)據(jù)挖掘課程是行業(yè)發(fā)展的必然需求。

1.2專業(yè)人才培養(yǎng)的迫切需求

電子商務(wù)是利用信息和通信技術(shù),通過Internet在個人、組織和企業(yè)之間進行商務(wù)活動和處理商務(wù)關(guān)系的一種活動。隨著云計算、物聯(lián)網(wǎng)及移動互聯(lián)等新興信息技術(shù)的迅速發(fā)展,大量傳感器和監(jiān)控設(shè)備不間斷的數(shù)據(jù)采集和行業(yè)數(shù)據(jù)的持續(xù)積累,使大數(shù)據(jù)成為時代的鮮明特點。教育部電子商務(wù)專業(yè)教學指導委員會王偉軍教授等人對138個電子商務(wù)專業(yè)本科人才的市場招聘需求進行研究發(fā)現(xiàn),網(wǎng)絡(luò)營銷與數(shù)據(jù)分析是當前電子商務(wù)專業(yè)的主要能力需求,而目前我國開設(shè)電子商務(wù)專業(yè)的高校中開設(shè)數(shù)據(jù)挖掘及其相關(guān)課程的只有14所。因此,該類別人才缺口目前較為嚴重,市場需求量較大。為了適應(yīng)時展需求,高校在人才培養(yǎng)時既要注重電子商務(wù)運營管理能力的培養(yǎng),同時更要注意商務(wù)數(shù)據(jù)分析與挖掘能力培養(yǎng)。培養(yǎng)同時具備這兩種能力,并且可以將兩種能力有效結(jié)合起來的應(yīng)用型人才,是當前高校電子商務(wù)專業(yè)發(fā)展的趨勢和方向。總之,在當前的電子商務(wù)活動中,商務(wù)管理是核心,數(shù)據(jù)分析與挖掘是手段。在大數(shù)據(jù)背景下,要提升電子商務(wù)的管理效率,實現(xiàn)電子商務(wù)的智能化發(fā)展,必須應(yīng)用好數(shù)據(jù)挖掘這把利器。因此,在電子商務(wù)專業(yè)開設(shè)數(shù)據(jù)挖掘課程,是行業(yè)發(fā)展的必然要求,也是專業(yè)發(fā)展的迫切要求。

2電子商務(wù)專業(yè)數(shù)據(jù)挖掘課程教學思路設(shè)計

數(shù)據(jù)挖掘是一門交叉學科,涉及統(tǒng)計學、數(shù)據(jù)庫、機器學習、高性能計算等多門學科相關(guān)內(nèi)容,要求學生具有較為扎實的基礎(chǔ)知識。由于課程難度較大,早期高校都把該課程作為研究生的專業(yè)課程。為適應(yīng)市場需求和行業(yè)發(fā)展,近年來,也有些高校將此課作為本科生高年級選修課開設(shè)。從該課程的傳統(tǒng)教學上來看,由于學生理論基礎(chǔ)不夠扎實,課程教學又多側(cè)重算法的分析與實現(xiàn),導致該課程存在教學難度大、理論教學過多、學習興趣難以提高等問題。考慮到傳統(tǒng)教學的問題以及電子商務(wù)專業(yè)培養(yǎng)應(yīng)用型本科人才的實際情況,筆者認為該課程在教學過程中應(yīng)“輕算法,重應(yīng)用”,以啟發(fā)學生數(shù)據(jù)思維為主,以理解算法思路為主(忽略細節(jié)實現(xiàn)),以合理構(gòu)建數(shù)據(jù)挖掘模型、正確解讀數(shù)據(jù)挖掘結(jié)果為主。在組織教學時,采用基于場景的啟發(fā)式教學方式。該課程在講授每個數(shù)據(jù)挖掘方法時,都通過一個電子商務(wù)問題進行導入;通過本節(jié)所授方法,形成解決問題的思路;最后通過專門數(shù)據(jù)挖掘軟件進行方法的應(yīng)用,通過對挖掘結(jié)果的解讀分析,為導入問題的決策分析提供依據(jù)。通過這種由淺入深,由易到難的方式,引起學生學習興趣,激發(fā)學生主動思考,真正成為課堂的主體。實踐環(huán)節(jié)是學生理論聯(lián)系實際的關(guān)鍵步驟,選用合適的數(shù)據(jù)挖掘軟件工具非常重要,對于電子商務(wù)專業(yè)的學生,數(shù)據(jù)挖掘重在問題的建模和方法的應(yīng)用,所以,該課程選擇的數(shù)據(jù)挖掘工具是IBM公司的SPSSModeler。SPSSModeler擁有豐富的數(shù)據(jù)挖掘算法,本課程涉及到的分類、聚類、關(guān)聯(lián)分析、時序分析、社會網(wǎng)絡(luò)分析挖掘等主要數(shù)據(jù)挖掘功能均可實現(xiàn),而且其操作簡單易用,分析結(jié)果直觀易懂,可以使用戶方便快捷地實現(xiàn)數(shù)據(jù)挖掘。學生通過對算法基本思路的了解,針對實驗問題設(shè)計數(shù)據(jù)挖掘方案,并通過數(shù)據(jù)挖掘軟件進行算法的應(yīng)用和結(jié)果的分析,理論和時間的順利銜接,進一步加深學生對數(shù)據(jù)挖掘方法的認識和理解。

3電子商務(wù)專業(yè)數(shù)據(jù)挖掘課程教學內(nèi)容設(shè)計

數(shù)據(jù)挖掘課程主要講解數(shù)據(jù)挖掘的基本概念、主要方法和技術(shù)、應(yīng)用情況及發(fā)展趨勢,目的在于啟發(fā)學生的數(shù)據(jù)思維,提升學生數(shù)據(jù)分析與挖掘的能力,深入理解電子商務(wù)數(shù)據(jù)在電子商務(wù)中的重要地位和作用,實現(xiàn)商務(wù)管理和數(shù)據(jù)挖掘的有機結(jié)合。由于數(shù)據(jù)挖掘課程理論性和應(yīng)用性均較強,反映在教學要求上,既要重視理論學習,又要重視實踐環(huán)節(jié)。具體來說,就是一方面通過理論教學使學生對理論內(nèi)容有較深入的理解和領(lǐng)悟;另一方面結(jié)合實踐教學,鼓勵學生多動手,多思考,綜合運用所學知識分析和解決實際問題。

3.1理論教學設(shè)計

針對大數(shù)據(jù)時代的數(shù)據(jù)特點和應(yīng)用特點,在數(shù)據(jù)挖掘課程的理論教學設(shè)計時,其內(nèi)容不僅包括傳統(tǒng)的基礎(chǔ)性的分類、聚類、關(guān)聯(lián)分析、時序分析等數(shù)據(jù)挖掘方法,還注重根據(jù)電子商務(wù)行業(yè)特點進行知識的拓展介紹,比如在將關(guān)聯(lián)分析的時候,除了傳統(tǒng)的購物籃分析,還增加了序列模式分析內(nèi)容;比如在結(jié)合社會化電子商務(wù)的發(fā)展,對社會網(wǎng)絡(luò)分析、文本挖掘等前沿數(shù)據(jù)挖掘知識也進行了一定的拓展介紹。這些拓展內(nèi)容,不但豐富了學生的知識體系,也為部分學生的課下深度擴展指明了方向。我校電子商務(wù)專業(yè)的數(shù)據(jù)挖掘課程總學時為48學時,其中理論教學32學時,主要內(nèi)容及其學時分配如表1所示。表1數(shù)據(jù)挖掘課程理論教學安排序號章節(jié)標題內(nèi)容提要學時1數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘基本概念與功能;基本流程與步驟;基本方法與應(yīng)用;拓展:數(shù)據(jù)庫,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系22數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗;數(shù)據(jù)的集成與轉(zhuǎn)換23分類分析決策樹分類;貝葉斯分類;分類特點及結(jié)果分析64聚類分析K-means聚類;兩步聚類;聚類特點與結(jié)果分析65關(guān)聯(lián)分析頻繁項集;關(guān)聯(lián)規(guī)則挖掘;關(guān)聯(lián)分析效果評價;拓展:序列模式分析86時序分析移動平均模型;指數(shù)平滑模型;拓展:ARIMA模型67數(shù)據(jù)挖掘發(fā)展趨勢社會網(wǎng)絡(luò)分析;文本挖掘;Web挖掘2理論教學在組織時,基本上以“課堂引例-問題分析-算法思路講解-課后練習”的方式展開。通過實例分析,給學生介紹各種算法的基本思想和相關(guān)概念,引起學生學習興趣。在講授算法時,通過具體的簡單數(shù)據(jù)演算實例來分析數(shù)據(jù)挖掘的過程和結(jié)果,使學生在實際案例中明白數(shù)據(jù)挖掘算法在處理數(shù)據(jù)過程中的作用和意義。雖然該課程開設(shè)在電子商務(wù)專業(yè)的第六學期,但是,由于數(shù)據(jù)挖掘課程本身需要多個學科的基礎(chǔ)知識,在目前的大學課程體系內(nèi),難以在有限的時間內(nèi)開設(shè)全部先修課程。因此,在理論講解時,對涉及到學生比較生疏的知識點,應(yīng)根據(jù)學生的知識水平,予以補充說明。例如,在講決策樹分類時,對于信息論中信息熵基本概念和計算方法,可以結(jié)合實際數(shù)據(jù)集合,進行講解和計算。

3.2實驗教學設(shè)計

數(shù)據(jù)挖掘是一門緊密結(jié)合實際應(yīng)用的課程,具有較強的實踐性。實踐教學環(huán)節(jié)中,首先教師講解實驗步驟,然后安排學生進行實驗,并對實驗結(jié)果做詳細分析與評價。每個實驗要求學生完成以下幾方面的內(nèi)容:(1)根據(jù)實驗問題設(shè)計數(shù)據(jù)挖掘方案和實施流程;(2)進行數(shù)據(jù)預(yù)處理,并構(gòu)建數(shù)據(jù)挖掘模型;(3)解讀數(shù)據(jù)挖掘結(jié)果,并聯(lián)系實驗問題進行具體分析;(4)實驗拓展與總結(jié)。在實驗拓展和總結(jié)部分,可以設(shè)計一些開放性的題目,比如在進行關(guān)聯(lián)分析時,可以設(shè)計這樣的問題“如果支持度閾值設(shè)置時降低十個百分點,頻繁項集會有哪些變化?關(guān)聯(lián)規(guī)則的準確性和適用性會有哪些方面的變化?”。在實驗環(huán)境下,學生可以通過對比實驗,比較容易得到結(jié)果,而在總結(jié)這些變化規(guī)律時,又可以強化和鞏固對關(guān)聯(lián)規(guī)則、頻繁項集、支持度、置信度等這些概念和指標意義的理解,從而更好的應(yīng)用在以后的工作實踐中。結(jié)合電子商務(wù)活動特點以及數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用,該課程的實驗是16學時。在實驗設(shè)計時,共設(shè)計了五個單人實驗和一個綜合性多人實驗.由于使用數(shù)據(jù)挖掘技術(shù)處理實際問題時,很多時候需要綜合運用一些數(shù)據(jù)挖掘方法,其設(shè)計方案不止一種,分析結(jié)果也不一定完全一致。為激發(fā)學生的主觀能動性,本課程在最后需要每個小組共同完成一個綜合性的數(shù)據(jù)挖掘作業(yè)。研究表明,對于本科生來說,指導教師給出一些具體的題目,如大學生消費狀況預(yù)測、校園共享單車滿意度分析等,這些熱點問題更容易激發(fā)學生的學習興趣。綜合作業(yè)從數(shù)據(jù)挖掘方案的設(shè)計、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模、結(jié)果分析以及報告撰寫全部由小組成員協(xié)作完成,通過這樣一個完整的分析問題、解決問題的過程,不但可以鍛煉學生綜合應(yīng)用知識的能力,也可以鍛煉學生的溝通寫作能力。在綜合性作業(yè)完成的過程中,教師需要給予一定的指導,例如教師可以介紹問卷星等網(wǎng)絡(luò)調(diào)查平臺或網(wǎng)絡(luò)爬蟲等工具幫助學生進行原始數(shù)據(jù)的采集;通過對數(shù)據(jù)挖掘方案的點評,幫助學生更合理的選取數(shù)據(jù)分析指標,設(shè)計數(shù)據(jù)挖掘方案;通過報告撰寫指導,幫助學生規(guī)范化的總結(jié)實驗分析結(jié)果。

4結(jié)論

大數(shù)據(jù)時代的電子商務(wù)活動中,對電子商務(wù)人才的數(shù)據(jù)挖掘和分析能力非常迫切,在電子商務(wù)專業(yè)中開設(shè)數(shù)據(jù)挖掘課程是行業(yè)發(fā)展和專業(yè)發(fā)展的必然要求。在電子商務(wù)專業(yè)開設(shè)數(shù)據(jù)挖掘課程既有別于研究生也有別于計算機等理工科專業(yè),“輕算法,重應(yīng)用”,以提升學生主動學習興趣為導向,采用基于場景的啟發(fā)式教學方法更合適。本文從教學思路、教學方法、教學內(nèi)容等方面進行了思考和探索,經(jīng)課程開設(shè)兩年來的教學實踐證明,學生在學習上的主觀能動性得到了一定的體現(xiàn),理論和實踐相結(jié)合的能力得到了鍛煉。激發(fā)學生學習興趣,培養(yǎng)學生的主動性思維,是當前教學中的重要課題,在電商行業(yè)不斷發(fā)展的過程中,如何更好的將最新行業(yè)問題融入教學過程,實現(xiàn)理論和實踐的有機結(jié)合,需要我們進一步深入思考和探索。

參考文獻

[1]馮然,陳欣.論數(shù)據(jù)分析類課程在電子商務(wù)專業(yè)設(shè)置中的重要性[J].河南教育,2015,(2).

[2]黃嵐.數(shù)據(jù)挖掘課程實踐教學資源庫建設(shè)[J].計算機教育,2014,(12).

[3]薛薇.基于SPSSModeler的數(shù)據(jù)挖掘(2版)[M].中國人民大學出版社,2014.

[4]李海林.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學探索[J].計算機時代,2014,(2).

[5]韋艷艷,張超群.“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程教學實踐與探索[J].高教論壇,2011,(1).

第3篇

關(guān)鍵詞 數(shù)據(jù)挖掘;關(guān)聯(lián)分析;聚類分析

中圖分類號TP311.13 文獻標識碼A 文章編號 1674-6708(2010)33-0257-02

1 數(shù)據(jù)挖掘的概念

隨著計算機技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)技術(shù)的風靡,獲得相關(guān)資料已經(jīng)是很方便了。但是人們也積累了大量的數(shù)據(jù)信息,面對這些龐大的數(shù)據(jù),如何從中提取有用的信息成為當務(wù)之急,為此,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的,人們事先不知道的,但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是發(fā)現(xiàn)知識的關(guān)鍵步驟。

2 數(shù)據(jù)挖掘的作用

2.1 關(guān)聯(lián)分析

關(guān)聯(lián)是反映兩個或者兩個以上事件之間存在某種依賴或聯(lián)系規(guī)律性。關(guān)聯(lián)規(guī)則挖掘是由Rakesh Apwal提出來的。在數(shù)據(jù)庫中,如果存在一項或多項之間的關(guān)聯(lián),則其中一項屬性值能夠依據(jù)其他屬性值進行推測。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中所有頻繁項目集,這是數(shù)據(jù)挖掘中最成熟的技術(shù)之一。例如:每天購買洗發(fā)水的人也有可能購買肥皂,比重有多大。

2.2 聚類分析

聚類分析是把數(shù)據(jù)按照所選樣本的關(guān)聯(lián)相似性劃分成若干小組,同一小組中的數(shù)據(jù)具有較高的相似度,不同組中的數(shù)據(jù)則相異,即同組中的相似性盡可能大,而組別間的相似性盡可能小。聚類事先不知道組別數(shù)和各組的相似特性。聚類分析可以發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。例如:將學生分為成績優(yōu)秀的學生,成績中等的學生,成績差的學生。

2.3 分類

分類就是按照以前數(shù)據(jù)庫中的數(shù)據(jù),分析它們的屬性、特征,找出一個類別的概念描述,并利用這種描述構(gòu)造模型,每個類別都代表了本類數(shù)據(jù)的整體信息,一般用規(guī)則或決策樹模式表示。分類事先知道類別數(shù)和各類的典型特征。例如:學校根據(jù)以前的數(shù)據(jù)將教師分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新教師,以采取不同的待遇分配方案。

2.4 預(yù)測

預(yù)測是利用歷史和當前的數(shù)據(jù)找出變化規(guī)律,推測未來數(shù)據(jù)的種類及特征。預(yù)測是以時間為關(guān)鍵屬性的關(guān)聯(lián)規(guī)則。例如:對未來經(jīng)濟形勢的判斷。

2.5 偏差分析

數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,偏差是對差異和極端情況的描述,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)偏離常規(guī)的異常現(xiàn)象,揭示內(nèi)在原因。例如:在本次數(shù)學測試中有30%的同學不及格,教師為了提高教學質(zhì)量,就要找出這30%不及格同學的內(nèi)在因素,提高及格率。

3 數(shù)據(jù)挖掘的流程

3.1 定義目標

為了避免數(shù)據(jù)挖掘的盲目性,首先就必須清晰地定義出業(yè)務(wù)問題,確定數(shù)據(jù)挖掘的目標。挖掘的目標明確了,但結(jié)果是不可預(yù)測的。

3.2 數(shù)據(jù)準備

1)數(shù)據(jù)選擇。在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫目標中搜索有關(guān)的內(nèi)、外部數(shù)據(jù)信息,提取適用于數(shù)據(jù)挖掘的數(shù)據(jù);

2)數(shù)據(jù)預(yù)處理。研究數(shù)據(jù)信息,進行數(shù)據(jù)的加工、集成等,去除重復(fù)的數(shù)據(jù)信息,選擇要進行數(shù)據(jù)挖掘的數(shù)據(jù),并定義數(shù)據(jù)類型;

3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換決定數(shù)據(jù)挖掘能否成功,數(shù)據(jù)轉(zhuǎn)換就是將數(shù)據(jù)轉(zhuǎn)換成一個針對挖掘算法的模型。

3.3 數(shù)據(jù)挖掘

根據(jù)數(shù)據(jù)功能的類型和數(shù)據(jù)的特點完善和選擇合適的挖掘算法,對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進行數(shù)據(jù)挖掘。

3.4 結(jié)果分析

解釋和評估數(shù)據(jù)挖掘的結(jié)果,最終轉(zhuǎn)換成用戶能夠理解的知識。

3.5 知識的同化

將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

4 數(shù)據(jù)挖掘的應(yīng)用

4.1 數(shù)據(jù)挖掘技術(shù)在市場營銷中的應(yīng)用

數(shù)據(jù)挖掘技術(shù)普遍應(yīng)用于市場營銷中,假定“以往消費者的行為是未來消費者的消費理念的直接解釋”,以市場營銷學的市場細化原理為基礎(chǔ)。通過收集、整理消費者以往的消費信息為數(shù)據(jù)信息,總結(jié)消費者的特點及興趣愛好,根據(jù)不同的屬性分類,推測出類似消費群體的消費行為,對不同類的消費群體進行定向營銷,這樣降低了營銷的盲目性,節(jié)省了營銷成本,提高了營銷效率,為企業(yè)創(chuàng)造出更多的利潤。

在經(jīng)濟發(fā)達國家和地區(qū),許多企業(yè)都利用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)信息進行加工處理,針對不同的消費群體,發(fā)出不同的營銷材料,以突出自己的競爭優(yōu)勢,擴大產(chǎn)品的營業(yè)額。

4.2 數(shù)據(jù)挖掘技術(shù)在商業(yè)銀行中的應(yīng)用

數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用于金融界,金融事務(wù)搜索大量的數(shù)據(jù)信息,對這些數(shù)據(jù)進行加工處理,發(fā)現(xiàn)其特征,從而發(fā)現(xiàn)不同類別客戶的特點,評估其信譽,推測其需求。商業(yè)銀行所作業(yè)務(wù)的利潤與風險是并存的,為了保證最大利潤和最小風險,必須對客戶的賬戶進行科學精確的分析歸納。

美國銀行使用數(shù)據(jù)挖掘技術(shù)工具,根據(jù)不同消費者的特點制定不同的產(chǎn)品,增強其競爭優(yōu)勢。

4.3 數(shù)據(jù)挖掘技術(shù)在醫(yī)學上的應(yīng)用

數(shù)據(jù)挖掘技術(shù)在醫(yī)學上的應(yīng)用相當廣泛,可以利用數(shù)據(jù)挖掘技術(shù)手段來提高從藥物的生產(chǎn)制造到醫(yī)療診斷等的效率和效益。在藥物生產(chǎn)方面,通過對藥物分子結(jié)構(gòu)的分析,可以確定是什么成分對病患的治療發(fā)揮了作用,從而推測出該藥對什么病有治療作用;在醫(yī)療診斷方面,通過對基因的分析處理,可以確診是什么發(fā)生了病變,屬于哪種病毒等。

4.4 數(shù)據(jù)挖掘技術(shù)在欺詐甄別中的應(yīng)用

銀行或者商業(yè)上經(jīng)常發(fā)生欺詐行為,給銀行和商業(yè)單位帶來了不可估量的損失。通過數(shù)據(jù)挖掘可以對這種欺詐行為進行預(yù)測,總結(jié)各種詐騙的行為特征,提醒廣大人們注意。

5 結(jié)論

數(shù)據(jù)挖掘技術(shù)是一個全新的研究領(lǐng)域,每年都有新的數(shù)據(jù)挖掘方法和模型產(chǎn)生,隨著數(shù)據(jù)庫等技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域?qū)訌V泛和深入。盡管如此,數(shù)據(jù)挖掘技仍然存在許多問題需要解決,尤其是超大規(guī)模數(shù)據(jù)挖掘的效率有待提高。

參考文獻

[1]李雄飛,李軍.Data Mining and Knowledge Discovery.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].北京高等教育出版社,2003.

第4篇

關(guān)鍵詞:客戶;電信市場;電信客戶細分;數(shù)據(jù)挖掘

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1674-7712 (2013) 24-0000-01

隨著通信市場競爭日趨激烈,電信客戶的通信需求和消費理念都發(fā)生了顯著的變化。為滿足客戶的應(yīng)用需求、提升市場競爭力,就必須將當代通信服務(wù)由以產(chǎn)品為導向以客戶需求為導向轉(zhuǎn)變,通過建立客戶數(shù)據(jù)庫,對客戶的類別屬性、消費類型以及消費傾向等進行分析。數(shù)據(jù)挖掘技術(shù)是一種大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析方法,其可以在海量數(shù)據(jù)中建立一種內(nèi)在的聯(lián)系,基于該聯(lián)系對客戶進行細分,協(xié)助企業(yè)制定更具價值的認知體系和決策規(guī)則。

一、電信客戶細分特點

客戶細分包括客戶描述與劃分兩部分內(nèi)容。前者主要是提取可用于描述客戶的特征和屬性,以便于可應(yīng)用該描述內(nèi)容對客戶行為模式進行預(yù)測和評估。后者主要是對經(jīng)過特征化后的客戶進行類別劃分,使具有共同類別與特點的用戶歸入同一類別,以便于增強服務(wù)和營銷的針對性與有效性。對客戶進行細分可以調(diào)整資源分配結(jié)構(gòu),滿足商業(yè)目的,對不同類型的客戶指定不同的營銷策略。

電信市場是典型的以客戶為中心的消費市場,對該市場客戶進行細分可以提升企業(yè)爭取新客戶、保留老客戶、維護現(xiàn)有客戶價值、拓展企業(yè)市場份額與經(jīng)濟效益的目的。

總結(jié)來看,電信客戶細分中需要從以下幾方面特征出發(fā):一是電信客戶消費具有持續(xù)性,為維系客戶關(guān)系,就需要以該特征為著力點;二是電信客戶消費層次和類別更為明顯,如電信企業(yè)的客戶分為具有較強穩(wěn)定消費能力的集團用戶和消費能力差別較大的個人用戶;三是客戶自身特點占據(jù)的權(quán)重較大,如客戶的消費習慣、個人價值、品牌忠誠度、人際關(guān)系等。

二、數(shù)據(jù)挖掘技術(shù)及其在電信客戶細分中的應(yīng)用特點

數(shù)據(jù)挖掘技術(shù)本質(zhì)是借助大量的知識體系和數(shù)據(jù)分析技術(shù)對海量、無序的數(shù)據(jù)信息進行整合與關(guān)聯(lián)建立,從中提取可有效反映數(shù)據(jù)內(nèi)部規(guī)律和模式,并依照所總結(jié)出來的規(guī)律與模式對未來的發(fā)展情況進行預(yù)測與評估,幫助決策者制定更有效的執(zhí)行策略。

傳統(tǒng)的電信客戶細分方法主要使用資料調(diào)查或客戶價值分析等兩種,前者具有較少的細分維度,調(diào)查結(jié)果更易理解和應(yīng)用,但是受調(diào)查樣本數(shù)量的限制,其結(jié)果的可靠性和有效性有待進一步確認;后者操作簡單,對于高價值電信客戶細分具有良好的應(yīng)用效果,但是在體現(xiàn)不同客戶、不同業(yè)務(wù)、不同消費結(jié)構(gòu)差異性等方面存在一定的缺陷。

在電信客戶細分中應(yīng)用數(shù)據(jù)挖掘技術(shù)可以有效利用企業(yè)發(fā)展過程中產(chǎn)生的大量數(shù)據(jù)進行多維度、多層面、多角度的客戶細分,并為細分結(jié)果提供高可靠性的理論支持。特別是數(shù)據(jù)挖掘技術(shù)中的聚類分析方法可以將客戶群按照電信企業(yè)最為關(guān)注的消費行為和消費價值進行細分,體現(xiàn)出不同客戶屬性之間的差異性,協(xié)助制定更加完備的營銷策略。基于數(shù)據(jù)挖掘的電信客戶細分可以分為戰(zhàn)略細分和策略細分兩類。前者主要是對客戶特征進行分析與研究,從中查找適當?shù)臓I銷機會;后者主要是對營銷活動進行分析與研究,為其選取最佳的目標人群。

三、基于數(shù)據(jù)挖掘的客戶細分模型分析

(一)細分模型設(shè)計

細分模型應(yīng)該包括三部分內(nèi)容,即客戶部分、市場部分、營銷部分。

客戶部分可進一步細化為客戶分類和客戶分析兩類。客戶細分中應(yīng)該從客戶消費習慣、消費種類、消費頻度、消費結(jié)構(gòu)、消費模式等建立模型,以便于電信企業(yè)依照這些特征對已有客戶的收益率、新客戶的定位、現(xiàn)存客戶與流失客戶特征等進行定義。客戶分析模型則需要包括客戶的行為、關(guān)系、價值屬性、利潤率、忠誠度以及業(yè)務(wù)量等內(nèi)容,通過這些內(nèi)容,電信企業(yè)可以對現(xiàn)有的營銷進行效果分析。

市場部分主要體現(xiàn)為市場預(yù)測與市場總結(jié)等內(nèi)容。建立可靠、客觀的市場模型可以幫助企業(yè)制定更精準、分類更清晰、目標性更強的市場策略,并依照所架構(gòu)的市場模型對用戶行為進行解釋,對未來用戶的行為趨向進行預(yù)測。

營銷部分可進一步細化為輔助營銷、定向服務(wù)以及價格定位三部分。輔助營銷模型可以針對特定的客戶群使用特定的手段進行分析與研究,進而開拓更具針對性的銷售渠道和宣傳策略,充分滿足客戶的消費需求,在維持現(xiàn)有客戶關(guān)系的基礎(chǔ)上提升客戶價值,拓展客戶量。定向服務(wù)則是充分聽取客戶的消費需求,制定差異化服務(wù)策略,提供全方位、高質(zhì)量定制服務(wù)。價格定位則是對客戶的價格敏感度建立模型并深入分析。

(二)電信客戶細分中的數(shù)據(jù)挖掘技術(shù)

目前,電信客戶細分中所使用的數(shù)據(jù)挖掘技術(shù)主要分為分類、聚類以及統(tǒng)計分析三類。

分類可以依照預(yù)先制定的規(guī)則制定清晰的分類標準,并依照該標準對客戶進行歸類,生成預(yù)測模型。分類可以有效反映同類客戶中的同屬性知識特征和不同客戶中的差異性知識特征,其具有非常強的預(yù)測性、指導性和方向性。常用的分類數(shù)據(jù)挖掘算法有神經(jīng)網(wǎng)絡(luò)法、決策樹法、貝葉斯法以及示例學習法等。

聚類則是在海量的數(shù)據(jù)中對客戶屬性進行歸納與總結(jié),將分析對象依照共同的特征分為多個簇,然后再在簇中進行特征提取,生成聚類標準,依照該標準對不同用戶進行分類、對不同簇進行更新。該技術(shù)無需指導和事先規(guī)則的制定。常用的聚類數(shù)據(jù)挖掘算法有神經(jīng)網(wǎng)絡(luò)法、模糊聚類法、統(tǒng)計聚類法等。

統(tǒng)計分析則是直接對客戶進行分群或輔助其他數(shù)據(jù)挖掘技術(shù)共同實現(xiàn)電信客戶細分。其以一定的方法從數(shù)據(jù)庫中提取樣本,并對這些樣本進行行為、地域、年齡、需求等進行差異性分析,輔助其他數(shù)據(jù)分析與處理技術(shù)即可實現(xiàn)客戶的細分。常用的統(tǒng)計分析方法有交叉分析、相關(guān)分析、顯著性分析、因子分析等。

參考文獻:

[1]蔡寧.基于數(shù)據(jù)挖掘的電信客戶細分研究[D].江西理工大學,2008.

[2]許昌加,高陽.數(shù)據(jù)挖掘在電信客戶細分中的應(yīng)用研究[J].成組技術(shù)與生產(chǎn)現(xiàn)代化,2004(21):43-46.

第5篇

關(guān)鍵詞:數(shù)據(jù)挖掘; 醫(yī)保;關(guān)聯(lián)規(guī)則;聚類;分類;序列模式

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)05-0880-03

Review of Data Mining Application in Medical Insurance in Our Country

FENG Li-yun

(Software College of Jiangxi Normal University, Nanchang 330022, China)

Abstract: Using data mining method to study the data of growing health care in our country is not a lot, but has a certain research. In this paper, the application of data mining in the field of health care are summarized from the association rules discovery, data clustering, classification knowledge discovery, sequential pattern discovery, and other data mining methods are reviewed in the Medicare application areas. Finally, look into the future of application of data mining in health care field.

Key words: data mining; Health care; Association rule; clustering; classification; sequence pattern

醫(yī)療保險是我國社會保障制度的重要組成部分,是關(guān)系百姓切身利益的一項民生工程。醫(yī)療保險自1998年開始在我國實施,經(jīng)過十多年的發(fā)展和不斷完善,目前大部分人民已經(jīng)可以享受醫(yī)療保險的優(yōu)惠政策。隨著經(jīng)濟的發(fā)展及互聯(lián)網(wǎng)的普及,信息技術(shù)已經(jīng)逐步滲透到醫(yī)藥行業(yè)中,醫(yī)保信息系統(tǒng)的應(yīng)用就是醫(yī)藥信息化的一個典型。醫(yī)保信息化在給我國醫(yī)保政策的管理和實施帶來了很多便利的同時,龐大的數(shù)據(jù)壓力也成為一個有待解決的問題。數(shù)據(jù)挖掘是一種從數(shù)據(jù)庫中抽取和識別出有效的、新穎的、可理解的、事先不為人知的但又潛在有用的模式或知識的過程或技術(shù),這種技術(shù)為我們的決策和管理帶來很多便利。近年來,關(guān)于數(shù)據(jù)挖掘技術(shù)在醫(yī)保信息系統(tǒng)中的研究運用與日俱增,該文對這些研究從研究方法進行了概括分析,介紹了數(shù)據(jù)挖掘在醫(yī)保行業(yè)的已有成果和具有代表性的方法,并對未來的發(fā)展作了展望。

1 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)

Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。算法已經(jīng)被廣泛的應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個領(lǐng)域。

文獻[3] 通過對醫(yī)院歷年醫(yī)保病人數(shù)據(jù)采用Apriori數(shù)據(jù)挖掘的方法,分析醫(yī)保費用與相關(guān)因素間的規(guī)則,得出醫(yī)保費用分析的規(guī)則集。該規(guī)則集顯示與醫(yī)保病人費用關(guān)聯(lián)最大的是特定出院科室和住院天數(shù)這兩因素的組合。文獻[1]針對醫(yī)保基金運營過程中出現(xiàn)的就醫(yī)聚集行為,提出基于頻繁模式挖掘的一致行為挖掘算法CBM,實驗表明該算法比Apriori和Eclat具有更好的性能,能有效檢測就醫(yī)聚集行為。文獻[2]對 Apriori 算法進行的具有針對性的改進,將改進的算法應(yīng)用于醫(yī)保稽查工作中, 挖掘算法產(chǎn)生的規(guī)則可使稽查人員重點稽查該規(guī)則所指向的醫(yī)保行為, 極大的提高了醫(yī)保稽查工作的效率。文獻[4]對社會醫(yī)療保險基金收支情況進行了研究,在建立數(shù)據(jù)倉庫時選用維度建模方法建立星型模型,重新組織了來源數(shù)據(jù)的

結(jié)構(gòu)關(guān)系;數(shù)據(jù)挖掘階段選用Apriori算法并對其進行了改進,進行關(guān)聯(lián)規(guī)則挖掘。文獻[7]在深入分析研究了經(jīng)典關(guān)聯(lián)規(guī)則Apriori算法的基礎(chǔ)上提出并實現(xiàn)了關(guān)聯(lián)規(guī)則生成算法,通過實驗對Apriori經(jīng)典算法和關(guān)聯(lián)規(guī)則算法進行了算法效率的分析比較。將改進的關(guān)聯(lián)規(guī)則算法應(yīng)用于某礦業(yè)集團的醫(yī)療保險數(shù)據(jù)中,為礦業(yè)集團完善醫(yī)療保險制度提供了很好的輔助決策支持。文獻[27]針對OLAM兼有0LAP多維分析的靈活性、在線性和對數(shù)據(jù)挖掘的深入處理數(shù)據(jù)等特點,在醫(yī)療保險系統(tǒng)中設(shè)計并實現(xiàn)了OLAM應(yīng)用模型。該模型使用浙江省某市醫(yī)療保險數(shù)據(jù)庫中2005年的醫(yī)保數(shù)據(jù),建立了以醫(yī)療保險費用和診斷項目為主題的數(shù)據(jù)倉庫,從多維角度分析數(shù)據(jù)倉庫中的數(shù)據(jù),并且運用了Apriori算法挖掘出一些潛在的關(guān)聯(lián)規(guī)則例如人們特別關(guān)注的“騙保”行為,為醫(yī)療決策提供科學有效的依據(jù)。

FP的全稱是Frequent Pattern,在算法中使用了一種稱為頻繁模式樹(Frequent Pattern Tree)的數(shù)據(jù)結(jié)構(gòu)。FP-tree是一種特殊的前綴樹,由頻繁項頭表和項前綴樹構(gòu)成。FP-Growth算法基于以上的結(jié)構(gòu)加快整個挖掘過程。

文獻[8]將FP-growth算法用于基本醫(yī)療保險數(shù)據(jù)的挖掘,根據(jù)課題特點提出了自動確定最小支持度的增量式FP-growth挖掘算法,并用實驗驗證了改進算法的有效性。文獻[5]通過對醫(yī)療保險信息系統(tǒng)的數(shù)據(jù)倉庫的設(shè)計、數(shù)據(jù)的整合以及數(shù)據(jù)挖掘的技術(shù)分析,實證研究關(guān)聯(lián)規(guī)則挖掘算法在醫(yī)保信息挖掘的可能性與必要性。利用編碼、解碼技術(shù)和SQL的聚集函數(shù),實現(xiàn)基于SQL的FP-Growth算法,該算法突破機器內(nèi)存對數(shù)據(jù)挖掘的處理效率問題,實現(xiàn)了對海量數(shù)據(jù)挖掘的高效挖掘。

文獻[6]基于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù),經(jīng)過大量重復(fù)的數(shù)據(jù)清洗工作,從醫(yī)院信息系統(tǒng)數(shù)據(jù)庫中抽取三個醫(yī)保年度的數(shù)據(jù),建立醫(yī)保費用數(shù)據(jù)倉庫和相應(yīng)的多維數(shù)據(jù)模型。對建立的多維數(shù)據(jù)模型采用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法進行挖掘分析,得出結(jié)論

文獻[9]以廣州市某大型三甲醫(yī)院的信息系統(tǒng)為主要數(shù)據(jù)源,其后臺數(shù)據(jù)庫系統(tǒng)采用 SQL SERVER 2008。建立醫(yī)保費用分析的數(shù)據(jù)倉庫,采用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法進行挖掘分析。

2 數(shù)據(jù)聚類

聚類就是將數(shù)據(jù)項分組成多個類或簇,類之間的數(shù)據(jù)差別應(yīng)盡可能大,類內(nèi)的數(shù)據(jù)差別應(yīng)盡可能小,即為“最小化類間的相似性,最大化類內(nèi)的相似性”原則。聚類算法有劃分法、層次法、基于密度、網(wǎng)格、模型的方法。其中,劃分聚類法比較有代表性,文獻[10]在分析了模糊數(shù)據(jù)挖掘的相關(guān)概念和技術(shù)的基礎(chǔ)上,使用模糊聚類方法進行醫(yī)療保險子系統(tǒng)的劃分,給出了劃分結(jié)果,并且將模糊數(shù)據(jù)挖掘應(yīng)用到醫(yī)療保險系統(tǒng)中,是數(shù)據(jù)挖掘技術(shù)在醫(yī)療保險領(lǐng)域應(yīng)用的一次嘗試;文獻[11]以貴陽市醫(yī)療保險業(yè)務(wù)為背景,研究運用 O-Cluster 算法,構(gòu)建數(shù)據(jù)挖掘模型并對模型進行解釋,反映數(shù)據(jù)間隱含的聯(lián)系。文獻[17] 使用K-均值、K-中心點、Ward等幾種聚類算法分析了醫(yī)保評估模型,并對幾種聚類方法進行了比較,實驗證明Ward聚類算法成簇效果佳,用戶容易理解。文獻[14]分析了數(shù)據(jù)挖掘和模糊數(shù)據(jù)挖掘的相關(guān)概念和技術(shù),開發(fā)設(shè)計了B/S架構(gòu)的醫(yī)療保險系統(tǒng),在此基礎(chǔ)上嘗試使用模糊數(shù)據(jù)挖掘技術(shù)進行醫(yī)療保險子系統(tǒng)的劃分,給出劃分結(jié)果。文獻[18]使用基于凝聚層次聚類(hierarchieal clustering)的ward方法、K-Means和K一中心點對醫(yī)保參保人進行聚類,在此之后對得出的聚類模型從健康和經(jīng)濟狀況兩方面進行了評估。

3 分類知識發(fā)現(xiàn)

分類就是構(gòu)造一個分類函數(shù),把具有某些特征的數(shù)據(jù)項映射到某個給定的類別上,分類方法可分為單一分類算法和組合單一分類算法。單一的分類方法主要包括:決策樹、貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、K-近鄰、支持向量機和基于關(guān)聯(lián)規(guī)則的分類等;另外還有用于組合單一分類方法的集成學習算法,如Bagging和Boosting等。

主要的決策樹算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等。它們在選擇測試屬性采用的技術(shù)、生成的決策樹的結(jié)構(gòu)、剪枝的方法以及時刻,能否處理大數(shù)據(jù)集等方面都有各自的不同之處。文獻[12]利用決策樹C4.5挖掘算法對醫(yī)療保險系統(tǒng)數(shù)據(jù)進行分析,找出影響就醫(yī)公平的關(guān)鍵因素,輔助決策者進行政策參數(shù)的最優(yōu)化設(shè)置。通過數(shù)據(jù)準備、歸納決策樹、決策樹剪枝、抽取規(guī)則等步驟得出住院費用是決定人員就醫(yī)壓力的最重要因素。文獻[13]使用決策樹算法及SQL Server 2005中包含的一種混合的決策樹算法分析研究了某市的基本醫(yī)療保險數(shù)據(jù)樣本,找出隱含的有效信息,并在此基礎(chǔ)上提出了完善基本醫(yī)療保險的對策建議。文獻[32]使用決策樹、神經(jīng)網(wǎng)絡(luò)等分類算法分析了我國某市的數(shù)據(jù)挖掘樣本,以此作為醫(yī)療保險監(jiān)管部門對各參保單位的賬戶進行考察的依據(jù)。

4 序列模式發(fā)現(xiàn)

序列挖掘或稱序列模式挖掘,是指從序列數(shù)據(jù)庫中發(fā)現(xiàn)蘊涵的序列模式。最早是由Agrawal等人提出的,它的最初動機是針對帶有交易時間屬性的交易數(shù)據(jù)庫中發(fā)現(xiàn)頻繁項目序列一發(fā)現(xiàn)某一時間段內(nèi)客戶的購買活動規(guī)律。

文獻[15]將序列模式挖掘算法與醫(yī)療保險數(shù)據(jù)庫結(jié)合起來,將基于周期時間約束的序列模式挖掘算法應(yīng)用與醫(yī)療保險數(shù)據(jù)庫中。在分析基于約束序列模式挖掘算法的基礎(chǔ)上,重點研究了基于時間粒度的挖掘算法PCSmine,并修改優(yōu)化了算法中的HP.CSB數(shù)據(jù)結(jié)構(gòu),使用neucleaning算法預(yù)處理醫(yī)療保險數(shù)據(jù)庫,實驗表明算法提高運行效率。文獻[16]首先利用數(shù)據(jù)抽取、轉(zhuǎn)換及裝載工具獲取有效數(shù)據(jù),通過建立多維模型,運用數(shù)據(jù)分析和數(shù)據(jù)挖掘方法生成各種報表及圖形,建立了智能醫(yī)院醫(yī)保業(yè)務(wù)決策支持系統(tǒng)架構(gòu)和數(shù)據(jù)倉庫模型。文中使用第309醫(yī)院2007、2008和2009三個年度的各科室月度醫(yī)保病人總費用來預(yù)測2010年1月的科室醫(yī)保病人總費用。采用SQL Server 2008中的時序分析方法來進行數(shù)據(jù)挖掘。SQL Server 2008 Analysis Services中的時間序列分析使用的算法是決策樹算法的特例。在文獻[17] 采用自動回歸整合移動平均ARIMA(AtoRegression Integrated Moving Average)模型,建立醫(yī)保結(jié)算費用預(yù)測模型,實現(xiàn)對醫(yī)保結(jié)算總費用的預(yù)測,并能詳細到各區(qū)縣、各級別醫(yī)院醫(yī)保結(jié)算費用的預(yù)測,為醫(yī)保基金監(jiān)管提供方向。文獻[32]應(yīng)用了幾種數(shù)據(jù)挖掘的算法分析了我國某市的數(shù)據(jù)挖掘樣本,使用時序算法對各參保單位的賬戶使用情況進行回歸以及預(yù)測,以此作為醫(yī)療保險監(jiān)管部門對各參保單位的賬戶進行考察的依據(jù)。

5 其他應(yīng)用

以下為數(shù)據(jù)挖掘在社會醫(yī)保方面的一些研究及應(yīng)用。一般結(jié)合數(shù)據(jù)倉庫,一并分析。

文獻[19]基于動態(tài)數(shù)據(jù)倉庫和SOA技術(shù),利用數(shù)據(jù)挖掘分析技術(shù),針對影響基金管理中的主要環(huán)節(jié)和基金運行中的風險的主要因素,建立醫(yī)保基金風險防控基礎(chǔ)技術(shù)平臺,對防范和化解基金風險起到支撐作用。

文獻[20]基于一個醫(yī)保基金風險防控平臺數(shù)據(jù)倉庫的構(gòu)建過程,提出一套適應(yīng)該平臺變化需求的元數(shù)據(jù)管理解決方案,分別從數(shù)據(jù)源層、數(shù)據(jù)倉庫、分析應(yīng)用層、ETL過程幾方面對元數(shù)據(jù)進行了分析,探討了其中元數(shù)據(jù)集成方案和管理功能的設(shè)計。

文獻[21]試著應(yīng)用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)醫(yī)保系統(tǒng)中有用的模式和規(guī)則構(gòu)建現(xiàn)代醫(yī)院信息平臺。經(jīng)過數(shù)據(jù)預(yù)處理、數(shù)據(jù)準備、數(shù)據(jù)挖掘、評估所得到的模式模型知識、發(fā)現(xiàn)知識的鞏固與運用等過程構(gòu)建了基于數(shù)據(jù)挖掘技術(shù)的現(xiàn)代醫(yī)院信息平臺。

文獻[22]首先闡述了在醫(yī)療保險管理上面臨的一些問題,針對這些問題采用數(shù)據(jù)倉庫(DW)與數(shù)據(jù)挖掘(DM)技術(shù),對醫(yī)保系統(tǒng)、HIS 系統(tǒng)歷史的、現(xiàn)在的數(shù)據(jù)進行過濾、整合、存儲以分析使用病提出了相應(yīng)的實施方法。

文獻[23]從采集醫(yī)療保險數(shù)據(jù)信息、建設(shè)數(shù)據(jù)倉庫、以及最后的開發(fā)和利用三方面進行闡述,探討在醫(yī)療保險管理中數(shù)據(jù)信息的價值和功能,以及在計算機系統(tǒng)建設(shè)過程中應(yīng)注意的問題,旨在為醫(yī)療保險計算機管理系統(tǒng)的建設(shè)提供參考意見。

文獻[24]用powerbuilder開發(fā)工具的分布式對象實現(xiàn)三層結(jié)構(gòu)式的醫(yī)保數(shù)據(jù)傳輸;定點醫(yī)療機構(gòu)的客戶端通過互聯(lián)網(wǎng)訪問應(yīng)用服務(wù)器上的數(shù)據(jù)傳輸服務(wù)端,醫(yī)保數(shù)據(jù)庫服務(wù)器設(shè)置為不能訪問互聯(lián)網(wǎng),也不能被互聯(lián)網(wǎng)訪問。應(yīng)用三層結(jié)構(gòu)式可以安全地傳輸醫(yī)保數(shù)據(jù)。

文獻[25]利用商業(yè)智能工具實時提取數(shù)據(jù),并建立分析模型及各種分析統(tǒng)計結(jié)果的圖形和報表。 首先是對醫(yī)保數(shù)據(jù)進行預(yù)處理,使醫(yī)保數(shù)據(jù)屬性更完整;然后,利用商業(yè)智能系統(tǒng)的ETL功能對數(shù)據(jù)進行清洗并對原醫(yī)保中心導出來的數(shù)據(jù)與南方醫(yī)院原HIS 系統(tǒng)導出來的相關(guān)數(shù)據(jù),進行自動的配備、核算和查找;最后,再次用商業(yè)智能系統(tǒng)對上面形成的患者數(shù)據(jù)建模分析。此系統(tǒng)實現(xiàn)了對醫(yī)保中心數(shù)據(jù)和醫(yī)院數(shù)據(jù)庫數(shù)據(jù)的自動化的抽取、匹配,并對醫(yī)保收入和工作量、醫(yī)保患者費用等進行了多維度、多角度的靈活統(tǒng)計和分析。

文獻[26]通過對醫(yī)療保險系統(tǒng)數(shù)據(jù)的分析,建立相應(yīng)的數(shù)據(jù)模型,為醫(yī)療保險系統(tǒng)提供決策支持依據(jù)。通過數(shù)據(jù)挖掘方法為醫(yī)療保險系統(tǒng)建立了數(shù)據(jù)倉庫,利用單因素方差分析方法進行數(shù)據(jù)結(jié)構(gòu)設(shè)計,并對其進行分析和研究。這里以醫(yī)院的綜合實力作為方差分析的因素,即影響住院費用的因素。

文獻[28]社會醫(yī)療保險是社會保險中最復(fù)雜的一個險種,醫(yī)療保險資金管理的一個關(guān)鍵因素就是在個人、單位繳納金額和個人享受保險待遇的設(shè)定之間構(gòu)建一種平衡。數(shù)據(jù)挖掘是信息社會廣泛應(yīng)用的一門技術(shù),我國醫(yī)療保險正處在改革的過程中,利用數(shù)據(jù)挖掘的分類技術(shù)對醫(yī)療保險的數(shù)據(jù)進行分析處理,能夠更好的把握醫(yī)療改革的方向,為醫(yī)療保險的決策提供科學有效的依據(jù)。

文獻[33]以美國 Ox International 公司的醫(yī)療保險業(yè)務(wù)為背景,在已開發(fā)的信息系統(tǒng)基礎(chǔ)上,提出了面向分析的數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的解決方案。該方案從決策角度出發(fā),建立多維數(shù)據(jù)模型,將系統(tǒng)中的歷史數(shù)據(jù)加以處理,并有組織的存放到數(shù)據(jù)倉庫中。在此基礎(chǔ)上,利用OLAP 和數(shù)據(jù)挖掘技術(shù),對數(shù)據(jù)倉庫中的數(shù)據(jù)進行各種復(fù)雜分析。文件[29]亦是。

文獻[30]首先描述了數(shù)據(jù)挖掘可用于醫(yī)療保險行業(yè)的關(guān)鍵技術(shù)現(xiàn)狀,其次闡述了數(shù)據(jù)挖掘技術(shù)在醫(yī)療保險行業(yè)中應(yīng)用的國內(nèi)外現(xiàn)狀和基于數(shù)據(jù)挖掘的決策支持系統(tǒng)研究現(xiàn)狀,最后進行了總結(jié),討論和分析了在的醫(yī)療保險信息系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘技術(shù)的工作重點。

文獻[31]以貴陽市社會保障局醫(yī)療保險業(yè)務(wù)數(shù)據(jù)中城鎮(zhèn)居民統(tǒng)籌基金支付情況為目標,利用聚類分析法,通過搭建oracle 數(shù)據(jù)倉庫平臺,并在此平臺上進行主題數(shù)據(jù)倉庫構(gòu)建與設(shè)計,進行聯(lián)機分析得出城鎮(zhèn)居民統(tǒng)籌基金支付情況。

除了以上的研究,目前國內(nèi)還有些學者從數(shù)據(jù)挖掘的技術(shù)角度對醫(yī)保管理信息系統(tǒng)進行了實施,主要用到的技術(shù)有ETL、數(shù)據(jù)倉庫、OLAP等。

6 總結(jié)與展望

本文對數(shù)據(jù)挖掘技術(shù)在社會醫(yī)保方面的應(yīng)用進行了分析和總結(jié),分為關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、數(shù)據(jù)聚類、分類知識發(fā)現(xiàn)、序列模式發(fā)現(xiàn)以及數(shù)據(jù)挖掘在醫(yī)保中的應(yīng)用幾方面。

在醫(yī)保領(lǐng)域中數(shù)據(jù)挖掘技術(shù)的研究和應(yīng)用主要包括數(shù)據(jù)挖掘技術(shù)與領(lǐng)域知識的結(jié)合和算法設(shè)計與改進兩個主要方面。隨著醫(yī)保基金風險防控的需求的不斷更新,可以發(fā)現(xiàn)更多的數(shù)據(jù)挖掘應(yīng)用場景,將數(shù)據(jù)挖掘技術(shù)更廣泛地應(yīng)用到醫(yī)保領(lǐng)域中。目前就診序列模式挖掘基于相似度的等長序列模式,可以研究擴展到不等長模式的挖掘;此外可以進一步提高一致行為模式挖掘的效率。

參考文獻:

[1] 何俊華,張靜誼,熊赟,朱揚勇.醫(yī)保就醫(yī)聚集行為挖掘[J].計算機應(yīng)用與軟件,2011,28(7).

[2] 劉凱,趙躍龍.關(guān)聯(lián)規(guī)則挖掘在醫(yī)保稽查中的應(yīng)用研究[J].科技信息,2007(33).

[3] 黃晶晶.數(shù)據(jù)挖掘技術(shù)在醫(yī)院醫(yī)保費用分析中的研究與應(yīng)用[D].廣州:南方醫(yī)科大學,2009.

[4] 石萌.數(shù)據(jù)挖掘在醫(yī)療保險參保人員老齡化問題中的研究[D].貴州:貴州財經(jīng)學院,2010.

[5] 簡偉光.數(shù)據(jù)整合與數(shù)據(jù)挖掘技術(shù)在醫(yī)療保險信息系統(tǒng)的研究與應(yīng)用[J].實踐與經(jīng)驗,2010.

[6] 朱彥華.醫(yī)保人群醫(yī)療費用的數(shù)據(jù)挖掘與分析[D].廣州:華南理工大學,2012.

[7] 梁愛琴.數(shù)據(jù)挖掘關(guān)聯(lián)算法在醫(yī)保系統(tǒng)中的應(yīng)用[D].北京:北京工業(yè)大學,2008.

[8] 劉江超.數(shù)據(jù)挖掘算法在醫(yī)保數(shù)據(jù)上的應(yīng)用研究[D].湖南:國防科學技術(shù)大學,2009.

[9] 朱彥華.醫(yī)保人群醫(yī)療費用的數(shù)據(jù)挖掘與分析[D].廣東:華南理工大學,2012.

[10] 王艷春,秦剛,陳毓.數(shù)據(jù)挖掘在醫(yī)保系統(tǒng)中的應(yīng)用[J].長春理工大學學報,2007,30(2).

[11] 李納.社會保障體系中醫(yī)療保險的數(shù)據(jù)挖掘與聯(lián)機分析研究[D].貴州:貴州財經(jīng)學院,2011.

[12] 張婧,王書海.C4.5算法在醫(yī)療保險數(shù)據(jù)挖掘中的應(yīng)用研究[J].石家莊鐵道學院學報(自然科學版),2008,21(2). (下轉(zhuǎn)第901頁)

(上接第882頁)

[13] 李冉冉,盧仿先.決策樹算法在基本醫(yī)療保險中的應(yīng)用研究[J].企業(yè)技術(shù)開發(fā),2008,27(5).

[14] 秦剛.數(shù)據(jù)挖掘在醫(yī)保系統(tǒng)中的應(yīng)用[D].吉林:長春理工大學,2006.

[15] 常帥.序列模式挖掘在醫(yī)療保險上的應(yīng)用[D].河南:鄭州大學,2011.

[16] 林濟南.基于商務(wù)智能的醫(yī)院醫(yī)保業(yè)務(wù)決策支持系統(tǒng)的研究[J].計算機與現(xiàn)代化,2009,9.

[17] 高臻耀,張敬誼,林志杰,熊斌,朱揚勇.一個醫(yī)保基金風險防控平臺中的數(shù)據(jù)挖掘技術(shù)[J].計算機應(yīng)用與軟件,2011,28(8).

[18] 何俊華.數(shù)據(jù)挖掘技術(shù)在醫(yī)保領(lǐng)域中的研究與應(yīng)用[D].上海:復(fù)旦大學,2011.

[19] 秦德霖,高震耀.面向服務(wù)的上海醫(yī)保基金風險防控平臺的研究[J].計算機應(yīng)用與軟件,2011,28(4).

[20] 王月,王偉俊,童慶,熊赟,朱揚勇.一個醫(yī)保數(shù)據(jù)倉庫的元數(shù)據(jù)管理解決方案[J].計算機應(yīng)用與軟件,2011,28(8).

[21] 王順民.構(gòu)建基于數(shù)據(jù)挖掘技術(shù)的現(xiàn)代醫(yī)院信息平臺[J].制造業(yè)自動化,2011,33(3).

[22] 張勇,趙峻,于冬.淺談醫(yī)保系統(tǒng)與醫(yī)院信息系統(tǒng)的數(shù)據(jù)挖掘[J].科學管理,2012,27(7).

[23] 王愛榮.淺析醫(yī)療保險數(shù)據(jù)信息的采集、開發(fā)和利用[J].中國衛(wèi)生經(jīng)濟,2004,23(1).

[24] 韋振錦,方華,成春艷.三層結(jié)構(gòu)在醫(yī)保數(shù)據(jù)傳輸中的應(yīng)用[J].廣西科學院學報,2007,23(4).

[25] 嚴靜東,張才明.依托商業(yè)智能系統(tǒng)的醫(yī)院醫(yī)保費用分析[J].醫(yī)院數(shù)字化,2009,30(4).

[26] 王春才,韓貴東,楊玉東,李英韜,張羽醫(yī).保數(shù)據(jù)倉庫的單因素方差分析與應(yīng)用[J].長春理工大學學報(自然科學版),2007,30(4).

[27] 張良燕,龔衛(wèi)華,黃德才,劉端陽.OLAM技術(shù)在醫(yī)療保險系統(tǒng)中的應(yīng)用研究[J].2007,35(5).

[28] 石萌.分類模型在社會醫(yī)療保險中的應(yīng)用研究[J].科技與生活,2010,3.

[29] 董韌毅.基于數(shù)據(jù)倉庫的醫(yī)療保險信息決策支持系統(tǒng)研究[D].江蘇:南京航空航天大學,2008.

[30] 萬芳.論數(shù)據(jù)挖掘在醫(yī)療保險決策支持中的應(yīng)用[J].科技創(chuàng)業(yè)家,2011.

[31] 張莎莎,李偉.數(shù)據(jù)挖掘在城鎮(zhèn)醫(yī)保中的應(yīng)用[J].電腦知識與技術(shù),2013,8.

第6篇

關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)庫;預(yù)處理技術(shù)

中圖分類號:TP311.131

隨著計算機和互聯(lián)網(wǎng)的普及應(yīng)用,由于其能夠提高工作的效率,非常受到人們的重視,一些企業(yè)甚至在計算機應(yīng)用的基礎(chǔ)上,提出了無紙化辦公的理念,在實際應(yīng)用的過程中,計算機需要存儲大量的數(shù)據(jù),對于企業(yè)用戶來說,很多數(shù)據(jù)具有私密性,如果這些數(shù)據(jù)泄露出去,將會給企業(yè)的發(fā)展帶來嚴重的影響,甚至造成巨大的經(jīng)濟損失。受到特殊的歷史因素影響,我國的經(jīng)濟和科技起步較晚,與西方發(fā)達國家相比,存在較大的差距,雖然經(jīng)過了多年改革開放的發(fā)展,我國已經(jīng)成為了世界第二大經(jīng)濟體,計算機的應(yīng)用水平也有了很大的提高,但是在尖端的數(shù)據(jù)挖掘等領(lǐng)域中,研究的還比較少,而數(shù)據(jù)挖掘等技術(shù),能夠在很大程度上影響數(shù)據(jù)的利用效率,對于實際的工作來說,具有非常重要的作用。

1 數(shù)據(jù)挖掘的預(yù)處理技術(shù)簡析

1.1 數(shù)據(jù)挖掘預(yù)處理技術(shù)的概念

數(shù)據(jù)挖掘技術(shù)是隨著數(shù)據(jù)庫的發(fā)展,逐漸形成的一門學科,在計算機出現(xiàn)的早期,受到其性能和體積的限制,能夠存儲的數(shù)據(jù)很少,不需要考慮數(shù)據(jù)的利用效率,但是隨著晶體管和集成電路的使用,計算機的性能得到了極大的提高,相應(yīng)的存儲設(shè)備也有了很大的進步,計算機能夠處理的任務(wù)越來越復(fù)雜,存儲的數(shù)據(jù)越來越多,現(xiàn)在我國建成了多個大型數(shù)據(jù)存儲中心,存儲的數(shù)據(jù)量非常巨大。對于如此多的數(shù)據(jù),如何篩選出自己想要的,成為了很大專家和學者研究的問題,在傳統(tǒng)的數(shù)據(jù)應(yīng)用中,通常都是利用檢索技術(shù),根據(jù)輸入的關(guān)鍵詞,在數(shù)據(jù)庫中進行逐個的匹配,如果數(shù)據(jù)庫的存儲量較小,檢索的效率就比較高,而對于現(xiàn)在的海量存儲來說,逐個匹配顯然需要很長的等待時間。數(shù)據(jù)挖掘的預(yù)處理技術(shù),正是在這種背景下出現(xiàn)的,所謂預(yù)處理技術(shù),就是在數(shù)據(jù)挖掘之前,對數(shù)據(jù)進行一定的整理,通常情況下,數(shù)據(jù)挖掘主要面對現(xiàn)有的數(shù)據(jù)庫或者互聯(lián)網(wǎng)上海量的數(shù)據(jù),如果在數(shù)據(jù)庫中進行挖掘,那么可以對數(shù)據(jù)庫進行一定的修改,如完善數(shù)據(jù)分類的方式等,而在互聯(lián)網(wǎng)上進行數(shù)據(jù)挖掘,顯然就需要優(yōu)化挖掘的方式,或者縮小數(shù)據(jù)挖掘的范圍等。

1.2 數(shù)據(jù)挖掘預(yù)處理技術(shù)的特點

與正常的數(shù)據(jù)挖掘技術(shù)相比,如何增加相應(yīng)的預(yù)處理環(huán)節(jié),無疑可以極大的提高數(shù)據(jù)挖掘的效率,如在數(shù)據(jù)庫中進行數(shù)據(jù)的挖掘,傳統(tǒng)的挖掘方式下,通常都是利用檢索技術(shù),輸入指定的關(guān)鍵詞后,與數(shù)據(jù)庫中的信息進行對比,這樣逐條的進行檢索,就可以找到自己想要的數(shù)據(jù),如果數(shù)據(jù)庫存儲的信息量較大,那么利用這樣的挖掘方式,顯然需要很長的等待時間。如果增加相應(yīng)的預(yù)處理環(huán)節(jié),如在數(shù)據(jù)庫中添加索引,對數(shù)據(jù)庫中的數(shù)據(jù)進行分類,那么在輸入相應(yīng)的關(guān)鍵詞后,首先與索引進行匹配,然后在指定類別的數(shù)據(jù)中進行對比,這樣的方式,顯然極大的提高了數(shù)據(jù)挖掘的效率,目前使用的數(shù)據(jù)庫中,大多采用了這樣的預(yù)處理技術(shù),取得了很好的應(yīng)用效果。受到特殊歷史因素的影響,我國數(shù)據(jù)庫相關(guān)技術(shù)水平較低,目前我國建設(shè)的大型數(shù)據(jù)庫,都是與國外的技術(shù)公司合建的,通過實際的調(diào)查發(fā)現(xiàn),現(xiàn)在我國還無法自主生產(chǎn)外部存儲設(shè)備,市面上的存儲設(shè)備,都是從外國引進的,但是在實際數(shù)據(jù)庫的建設(shè)中,在外國存儲設(shè)備的基礎(chǔ)上,我國也進行了大量數(shù)據(jù)挖掘等技術(shù)的研究。

1.3 數(shù)據(jù)挖掘預(yù)處理技術(shù)的發(fā)展

從某種意義上來說,數(shù)據(jù)挖掘技術(shù)是隨著互聯(lián)網(wǎng)和數(shù)據(jù)庫的應(yīng)用,根據(jù)實際使用的需要,逐漸形成的一門技術(shù),在互聯(lián)網(wǎng)發(fā)展的初期,網(wǎng)絡(luò)上的資源有限,而且受到計算機性能的限制,沒有太多的娛樂項目,只能瀏覽一些商業(yè)網(wǎng)站等,隨著計算機的普及應(yīng)用,互聯(lián)網(wǎng)有了很大的發(fā)展,現(xiàn)在已經(jīng)建成了覆蓋世界范圍的因特網(wǎng)。據(jù)最新的統(tǒng)計調(diào)查表明,我國的網(wǎng)民數(shù)量已經(jīng)超過了6億,如果龐大的用戶群體,為我國互聯(lián)網(wǎng)的發(fā)展,提供了堅實的基礎(chǔ),但是通過實際的調(diào)查發(fā)現(xiàn),我國的實際網(wǎng)絡(luò)帶寬,還沒有達到世界平均水平,即使實際使用的網(wǎng)絡(luò)帶寬較低,我國互聯(lián)網(wǎng)內(nèi)容的發(fā)展速度依然很快,現(xiàn)在網(wǎng)絡(luò)上出現(xiàn)了各種各樣的網(wǎng)站,極大的提高了網(wǎng)絡(luò)建設(shè)水平。在實際的網(wǎng)絡(luò)瀏覽中,面對如此大的信息量,如何找到自己想要的信息,成為了一個實際問題,為了解決這個問題,出現(xiàn)了搜索引擎,只要輸入相應(yīng)的關(guān)鍵詞,搜索引擎就可以很快的找到大量相關(guān)內(nèi)容,然后進行必要的篩選,就能夠得到相應(yīng)的數(shù)據(jù),但是隨著互聯(lián)網(wǎng)內(nèi)容的豐富,除了傳統(tǒng)的文字信息外,還有視頻和音頻等數(shù)據(jù),如何在這些數(shù)據(jù)中,進行相應(yīng)的挖掘工作,具有較大的難度。

2 影響數(shù)據(jù)挖掘預(yù)處理技術(shù)的因素

2.1 預(yù)處理的方式

在實際的數(shù)據(jù)挖掘過程中,能夠影響挖掘效果的因素有很多,如數(shù)據(jù)量的大小、挖掘方式等,從某種意義上來說,數(shù)據(jù)挖掘就是數(shù)據(jù)的查找,從指定范圍或者未知范圍內(nèi),找到指定的數(shù)據(jù),通常情況下,數(shù)據(jù)挖掘都具有很強的目的性,但是對于找到數(shù)據(jù)的量,并沒有明確的要求,尤其是隨著互聯(lián)網(wǎng)內(nèi)容的增加,現(xiàn)在的數(shù)據(jù)挖掘中,都會附帶大量的相關(guān)信息。對于數(shù)據(jù)挖掘的預(yù)處理技術(shù)來說,預(yù)處理的方式,能夠在很大程度上影響挖掘的效率,例如在一個一百條數(shù)據(jù)庫中進行挖掘,為了提高實際的效率,通常情況下會采用檢索的方式,根據(jù)輸入的關(guān)鍵詞,逐條的與數(shù)據(jù)庫的信息進行比對,這樣挖掘的效率具有很大的不確定性,如果要查找的數(shù)據(jù)排列比較考前,那么就需要很短的檢索時間,如果要查找的數(shù)據(jù)剛好在第一百條的位置,顯然就需要進行一百次匹配。如果采用索引的方式進行預(yù)處理,將這一百條數(shù)據(jù)根據(jù)自身的特點,分成十個類別,每個類別建立一個索引,那么在實際的匹配中,無論要查找的數(shù)據(jù)處于哪個位置,最多只需要十次匹配,就可以找到相應(yīng)的數(shù)據(jù),由此可以看出,預(yù)處理方式對于數(shù)據(jù)挖掘效率具有非常重要的影響。

2.2 數(shù)據(jù)量的大小

計算機經(jīng)過了多年的發(fā)展,其自身的性能有了很大的提高,在實際的數(shù)據(jù)挖掘中,如果檢索的數(shù)據(jù)較少,即使不經(jīng)過任何的預(yù)處理,仍然可以具有很高的挖掘效率,但是隨著數(shù)據(jù)庫自身的發(fā)展,企業(yè)用戶的數(shù)據(jù)庫容量越來越大,在數(shù)據(jù)庫中查找指定的數(shù)據(jù),需要較長的時間,要想很好的解決這個問題,必須對數(shù)據(jù)挖掘的方式等,進行相應(yīng)的優(yōu)化。通過實際的調(diào)查發(fā)現(xiàn),目前我國使用的數(shù)據(jù)庫,大多都是國外的技術(shù)公司設(shè)計的,為了方便數(shù)據(jù)庫的使用,大多采用了整體的外包,即軟件和硬件都是由同一家公司提供,采用這樣的方式,不但能夠很好的解決軟件和硬件之間不兼容的問題,同時可以提供優(yōu)質(zhì)的軟件服務(wù)。目前市面上的數(shù)據(jù)庫,大多對數(shù)據(jù)挖掘技術(shù)進行一定的優(yōu)化,如增加索引環(huán)節(jié)等,通過這些技術(shù)的使用,很好的提高了實際的挖掘效率,但是這些預(yù)處理技術(shù),并沒有考慮到數(shù)據(jù)量的大小,如一些大型的數(shù)據(jù)庫中,要想建立索引機制,本身就需要很長的時間,雖然在建立索引后,就可以直接的使用,即使數(shù)據(jù)庫中發(fā)生變化,也不需要重新建立,只要根據(jù)數(shù)據(jù)的情況,將其存儲到指定的分類中即可。

2.3 操作人員自身的素質(zhì)

對于實際的數(shù)據(jù)挖掘工作來說,操作人員自身的素質(zhì),也可以在很大程度上影響挖掘的效率,經(jīng)過了多年的完善,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了一門單獨的學科,計算機專業(yè)的學生,要進行相應(yīng)知識的學習,但是通過實際的調(diào)查發(fā)現(xiàn),現(xiàn)在的數(shù)據(jù)挖掘主要針對互聯(lián)網(wǎng)上的內(nèi)容,而互聯(lián)網(wǎng)日新月異的發(fā)展,給數(shù)據(jù)挖掘帶來了很大的難度。在這種背景下,如果沒有足夠的工作經(jīng)驗,顯然很難完成相應(yīng)的數(shù)據(jù)挖掘工作,因此剛畢業(yè)的大學生,數(shù)據(jù)挖掘的效果較差,即使能夠完成相應(yīng)的工作,也需要較長的時間,雖然這些學生在學校中,能夠?qū)W習到大量的數(shù)據(jù)挖掘知識,為了提高教學的效果,老師還會講解一些數(shù)據(jù)挖掘的實例,但是實際挖掘中,具有很多的不可控因素。如果操作人員具有豐富的數(shù)據(jù)挖掘經(jīng)驗,在實際的工作中,必然會總結(jié)一些相應(yīng)的技巧,這些技巧的使用,可以在一定程度上縮短挖掘的時間,提高數(shù)據(jù)挖掘的準確性,對于數(shù)據(jù)挖掘工作來說,具有非常重要的作用,從某種意義上來說,數(shù)據(jù)挖掘的預(yù)處理技術(shù),指的就是這些從實踐中總結(jié)出來的技巧,然后進行科學、系統(tǒng)的分析,應(yīng)用到實際的挖掘中。

3 我國數(shù)據(jù)挖掘預(yù)處理技術(shù)應(yīng)用中存在的問題

3.1 沒有意識到預(yù)處理技術(shù)的重要性

在傳統(tǒng)的數(shù)據(jù)挖掘中,由于數(shù)據(jù)庫自身的容量較少,采用檢索的方式,就可以輕松的找到想要的數(shù)據(jù),因此不需要預(yù)處理技術(shù),隨著數(shù)據(jù)庫自身的發(fā)展,計算機的性能也有了很大的提高,在很長一段時間內(nèi),硬件的發(fā)展速度都要領(lǐng)先于軟件,因此數(shù)據(jù)檢索具有很高的效率,近些年互聯(lián)網(wǎng)的普及應(yīng)用,在很大程度上改變了這種現(xiàn)象,尤其是云計算等理念的出現(xiàn)。在互聯(lián)網(wǎng)海量數(shù)據(jù)中進行挖掘,依靠單獨的計算機,很難具有較高的效率,在這種背景下,如何優(yōu)化數(shù)據(jù)挖掘技術(shù),成為了很多專家和學者研究的問題,預(yù)處理技術(shù)就是根據(jù)實際工作的需要出現(xiàn)的,受到特殊的歷史因素影響,在數(shù)據(jù)庫的建設(shè)等方面,我國要落后西方國家很多,雖然近年來我國投入了大量的人力和物力,研究數(shù)據(jù)挖掘等技術(shù),但是并沒有取得明顯的效果。正是受到自身技術(shù)水平的限制,使得我國數(shù)據(jù)建設(shè)中,對數(shù)據(jù)挖掘的預(yù)處理技術(shù),沒有足夠的重視,導致很大數(shù)據(jù)庫中,還采用傳統(tǒng)的檢索等方式,沒有任何的預(yù)處理技術(shù),在很大程度上影響了數(shù)據(jù)挖掘的效率,雖然一些數(shù)據(jù)庫中集成了相應(yīng)的功能,但是通過實際的調(diào)查發(fā)現(xiàn),在實際使用的過程中,并沒有啟用相應(yīng)的功能。

3.2 沒有針對性的預(yù)處理方式

由于現(xiàn)在的數(shù)據(jù)挖掘,主要針對互聯(lián)網(wǎng)上海量的數(shù)據(jù),而互聯(lián)網(wǎng)上的數(shù)據(jù)非常復(fù)雜,尤其是近些年網(wǎng)絡(luò)的發(fā)展,出現(xiàn)了文本、視頻、音頻等各種各樣的信息,在這些信息中進行數(shù)據(jù)的挖掘,顯然具有較大的難度,而且互聯(lián)網(wǎng)的數(shù)據(jù)量較大,即使借助相應(yīng)的搜索引擎,依然需要很長的挖掘時間,對于現(xiàn)在使用的一些數(shù)據(jù)挖掘預(yù)處理技術(shù),只有在一些特定的情況下,才能夠發(fā)揮出一定的作用。數(shù)據(jù)挖掘預(yù)處理技術(shù)出現(xiàn)的時間較短,目前還沒有形成統(tǒng)一的認識,不同學者根據(jù)實際工作的需要,提出了不同的預(yù)處理方式,通過實際的調(diào)查發(fā)現(xiàn),這些預(yù)處理方式的應(yīng)用,都具有一定的局限性,在特定的數(shù)據(jù)挖掘中,可以明顯的提高挖掘的效率,但是對于其他數(shù)據(jù)的挖掘,就無法起到相應(yīng)的作用。受到我國數(shù)據(jù)挖掘技術(shù)水平的限制,并沒有意識到這點,在實際數(shù)據(jù)挖掘的工作中,通常都是隨意的采用預(yù)處理方式,這樣顯然無法最大成都上提高數(shù)據(jù)挖掘的效率,有時候反而會降低工作的效率,目前西方發(fā)達國家的數(shù)據(jù)挖掘預(yù)處理中,都會根據(jù)每次工作的實際情況,針對性的設(shè)計一個預(yù)處理的方式。

4 數(shù)據(jù)挖掘的預(yù)處理技術(shù)應(yīng)用措施

4.1 重視數(shù)據(jù)挖掘的預(yù)處理技術(shù)

考慮到我國的數(shù)據(jù)庫建設(shè)中,很多都沒有采用相應(yīng)的預(yù)處理技術(shù),在很大程度上影響了數(shù)據(jù)挖掘的效率,要想很好的解決這個問題,必須對預(yù)處理技術(shù)給予足夠的重視,在數(shù)據(jù)庫的設(shè)計時,就對預(yù)處理的方式等進行考慮,如果是購買的數(shù)據(jù)庫服務(wù),那么就要根據(jù)自身的實際情況,對預(yù)處理技術(shù)提供一定的要求,這樣可以極大的提高挖掘的效率。通過實際的調(diào)查發(fā)現(xiàn),西方國家的預(yù)處理技術(shù)水平之所以比較高,主要就是由于其重視,在實際的挖掘工作中,對于能夠提高工作效率的所有細節(jié)進行完善,并總結(jié)相關(guān)的經(jīng)驗,方便下次的使用,正是這種供求雙方的重視,使得西方發(fā)達國家的預(yù)處理技術(shù)快速的發(fā)展。我國要想提高自身的數(shù)據(jù)挖掘預(yù)處理技術(shù),必須根據(jù)自身的實際情況,借鑒外國一些先進的經(jīng)驗,最大程度上完善預(yù)處理技術(shù),要想達到這個目的,首先應(yīng)該提高對預(yù)處理技術(shù)的重視程度,無論是實際的操作人員,還是管理人員和開發(fā)人員,都應(yīng)該重視預(yù)處理技術(shù)的應(yīng)用,然后從自身的工作角度出發(fā),對其進行一定的完善。

4.2 提高工作人員自身的素質(zhì)

數(shù)據(jù)挖掘預(yù)處理技術(shù)的應(yīng)用,需要實際的操作人員,而不同工作人員,由于自身經(jīng)驗等不同,工作的效率會有一定的差距,如剛畢業(yè)的大學生,即使在學校中的成績較好,掌握了足夠的預(yù)處理知識,還是無法很好的完成相應(yīng)的工作,尤其是近些年信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上海量數(shù)據(jù)的挖掘,具有很大的難度。而且不同數(shù)據(jù)的挖掘,預(yù)處理方式等也應(yīng)該具有一定的差異,通過實際的調(diào)查發(fā)現(xiàn),目前我國的數(shù)據(jù)挖掘工作人員自身的素質(zhì)普遍較低,無法根據(jù)實際的工作情況,針對性的選擇一種預(yù)處理方式,在很大程度上影響了挖掘的效率,要想很好的解決這個問題,必須提高工作人員自身的素質(zhì),在實際的招聘過程中,盡量聘請一些具有豐富經(jīng)驗的人員。對于現(xiàn)有的工作人員,可以通過定期培訓等方式,讓其了解到最新的數(shù)據(jù)挖掘理念,以及預(yù)處理技術(shù)的重要性等,如果條件允許,還可以與一些先進的企業(yè)進行交流,學習先進的預(yù)處理技術(shù),這樣在提高預(yù)處理技術(shù)水平的同時,還可以對數(shù)據(jù)庫的其他的技術(shù),進行一定的優(yōu)化。

4.3 采用針對性的預(yù)處理方式

經(jīng)過了多年的發(fā)展和完善,數(shù)據(jù)挖掘的預(yù)處理技術(shù)已經(jīng)非常普遍,目前的很大數(shù)據(jù)庫建設(shè)中,都會采用預(yù)處理技術(shù),甚至在日常的數(shù)據(jù)搜索中,也開始使用預(yù)處理技術(shù),但是通過實際的調(diào)查發(fā)現(xiàn),根據(jù)實際需要數(shù)據(jù)的不同,數(shù)據(jù)挖掘的環(huán)境、方式等會具有較大的差異,而這些條件的變化,必然需要不同的預(yù)處理方式。而目前我國的數(shù)據(jù)挖掘中,顯然還沒有意識到這點,為了提高實際的工作效率,雖然會采用一定的預(yù)處理方式,但是預(yù)處理的方式,并不會根據(jù)數(shù)據(jù)挖掘的不同,進行針對性的變化,沒有真正的達到預(yù)處理的目的,在一些特殊的數(shù)據(jù)挖掘中,由于預(yù)處理方式的不當,甚至會降低工作的效率。由此可以看出,在實際的數(shù)據(jù)挖掘中,預(yù)處理方式的重要性,要想最大程度上提高工作的效率,必須采用針對性的預(yù)處理方式,對目前已有的預(yù)處理方式進行總結(jié)、分類,根據(jù)需要數(shù)據(jù)的情況,針對性的選擇,如果人員的自身素質(zhì)較高,還可以設(shè)計一個新的預(yù)處理方式,以此來最大程度上提高數(shù)據(jù)挖掘的效率。

5 結(jié)束語

通過全文的分析可以知道,隨著近些年計算機和互聯(lián)網(wǎng)的普及應(yīng)用,數(shù)據(jù)的挖掘、存儲、調(diào)用等技術(shù)越來越重要,受到特殊的歷史因素影響,我國科技起步較晚,與西方發(fā)達國家相比,在數(shù)據(jù)挖掘等領(lǐng)域中,具有明顯的差異,雖然經(jīng)過了多年改革開放的發(fā)展,這種差距在逐漸的減小,但是很難在短時間內(nèi)趕上發(fā)達國家的技術(shù)水平,在這種背景下,要想快速的提高我國數(shù)據(jù)挖掘預(yù)處理技術(shù),必須結(jié)合我國數(shù)據(jù)挖掘的實際情況,借鑒西方國家先進的經(jīng)驗,完善目前的預(yù)處理技術(shù)。

參考文獻:

[1]鄭繼剛,謝芳.多媒體圖像挖掘的關(guān)聯(lián)規(guī)則挖掘[J].紅河學院學報,2009(05):44-47.

[2]謝邦昌,李揚.數(shù)據(jù)挖掘與商業(yè)智能的現(xiàn)況及未來發(fā)展[J].統(tǒng)計與信息論壇,2008(05):94-96.

[3]林建勤.數(shù)據(jù)挖掘主要問題的對策研究[J].貴陽學院學報(自然科學版),2007(02):1-4.

[4]陳娜.數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向[J].電腦與信息技術(shù),2006(01):46-49.

[5]李菁菁,邵培基,黃亦瀟.數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究[J].管理工程學報,2004(03):10-15.

[6]鄭斌祥,杜秀華,席裕庚.一種時序數(shù)據(jù)的離群數(shù)據(jù)挖掘新算法[J].控制與決策,2002(03):324-327.

[7]臧洌.人工神經(jīng)網(wǎng)絡(luò)在混沌觀測時序數(shù)據(jù)處理中的應(yīng)用[J].數(shù)據(jù)采集與處理,2001(04):486-489.

第7篇

[關(guān)鍵詞] 數(shù)據(jù)挖掘;名老中醫(yī);經(jīng)驗傳承

名老中醫(yī)是中醫(yī)藥學術(shù)發(fā)展的杰出代表,是聯(lián)系傳統(tǒng)和實現(xiàn)中醫(yī)發(fā)展的靈魂,名老中醫(yī)經(jīng)驗的總結(jié)和傳承不僅能豐富中醫(yī)學的理論體系,還能為中醫(yī)藥學術(shù)進步產(chǎn)生巨大的推動作用,也是培養(yǎng)造就新一代名中醫(yī)的重要途徑之一。因此,總結(jié)名老中醫(yī)的臨床經(jīng)驗、用藥規(guī)律和學術(shù)思想,對中醫(yī)藥的薪火相傳具有重要的理論意義和應(yīng)用價值,也是中醫(yī)藥創(chuàng)新發(fā)展的源泉。數(shù)據(jù)挖掘(data mining,DM)又稱數(shù)據(jù)庫知識發(fā)現(xiàn)(knowledge discover in database,KDD),是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、未知的并有潛在價值的信息的非平凡過程。采用數(shù)據(jù)挖掘技術(shù)對名老中醫(yī)學術(shù)思想和臨證經(jīng)驗進行研究,可以全面解析其中的規(guī)律,分析名老中醫(yī)個體化診療信息特征,提煉出臨證經(jīng)驗中蘊藏的新理論、新方法、新知識,實現(xiàn)名醫(yī)經(jīng)驗的有效總結(jié)與傳承。自從基于信息和數(shù)據(jù)技術(shù)的名老中醫(yī)臨床診療經(jīng)驗研究思路提出以來,利用多種數(shù)據(jù)挖掘技術(shù)對病案進行分析的研究報道與日俱增,在名老中醫(yī)經(jīng)驗傳承領(lǐng)域發(fā)揮著重要作用[1-3]。本文中,筆者結(jié)合多年從事數(shù)據(jù)挖掘研究的經(jīng)驗與體會,并借鑒國內(nèi)同行的相關(guān)研究成果,對數(shù)據(jù)挖掘在名老中醫(yī)經(jīng)驗傳承研究中的應(yīng)用進行論述,希冀為數(shù)據(jù)挖掘方法在名老中醫(yī)經(jīng)驗傳承領(lǐng)域的進一步深入應(yīng)用提供參考。

1 名老中醫(yī)經(jīng)驗傳承研究中數(shù)據(jù)挖掘方法的應(yīng)用

1.1 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則(association rules)是從大量的數(shù)據(jù)中挖掘發(fā)現(xiàn)項集之間有意義的關(guān)聯(lián),并尋找給定的數(shù)據(jù)集中項之間的有趣聯(lián)系的一種算法。常用的關(guān)聯(lián)規(guī)則算法包括Apriori算法、FP-樹頻集算法等 [4-6]。吳榮等采用關(guān)聯(lián)規(guī)則算法對名老中醫(yī)治療冠心病的用藥規(guī)律進行數(shù)據(jù)挖掘。結(jié)果顯示,治療冠心病處方中最常用的中藥是丹參、瓜蔞、川芎,最常用的方劑是瓜蔞薤白類方、活血通脈劑及生脈散[7]。劉曉怡等采用關(guān)聯(lián)規(guī)則方法對李佃貴教授辨治慢性萎縮性胃炎醫(yī)案進行數(shù)據(jù)挖掘,得出李佃貴教授診治慢性萎縮性胃炎最常用的藥物是茵陳、黃連[8]。田琳等采用關(guān)聯(lián)規(guī)則算法對名老中醫(yī)診療眩暈病辨證思維模式進行數(shù)據(jù)挖掘,得出眩暈病的證候多為風陽上擾、肝腎陰虛、痰濁上蒙、肝腎陰虛、氣血兩虛等,病因病機多為虛、風、痰、瘀等,發(fā)病與肝、腎、脾三臟關(guān)系密切[9-10]。筆者采用關(guān)聯(lián)規(guī)則方法對國醫(yī)大師顏正華教授治療胃脘痛用藥規(guī)律進行數(shù)據(jù)挖掘,得出顏正華教授在治療胃脘痛過程中常用藥物為陳皮、佛手、香附、白芍、煅瓦楞子、赤芍、當歸、丹參等,使用頻率前3位的藥對是佛手、陳皮,陳皮、香附,佛手、香附[11-12]。作為在名老中醫(yī)處方規(guī)律研究中使用最廣泛的數(shù)據(jù)挖掘算法,關(guān)聯(lián)規(guī)則具有明顯的優(yōu)點,如它可以產(chǎn)生清晰有用的結(jié)果,支持間接數(shù)據(jù)挖掘,可以處理變長的數(shù)據(jù)等。但是,關(guān)聯(lián)規(guī)則也有其不足,如計算量增長相當嚴重,難以決定正確的數(shù)據(jù),容易忽略稀有的數(shù)據(jù)等。

1.2 貝葉斯網(wǎng)絡(luò)的應(yīng)用 貝葉斯網(wǎng)絡(luò)(Bayesian network)是一種以貝葉斯公式為基礎(chǔ)的概率網(wǎng)絡(luò),是一個有向無環(huán)圖,由代表變量結(jié)點及連接這些結(jié)點的有向邊構(gòu)成。貝葉斯網(wǎng)絡(luò)可以將具體問題中復(fù)雜的變量關(guān)系在一個網(wǎng)絡(luò)結(jié)構(gòu)表示,通過網(wǎng)絡(luò)模型反映問題領(lǐng)域中變量的依賴關(guān)系[13]。吳榮等利用貝葉斯網(wǎng)絡(luò)技術(shù)對名老中醫(yī)治療冠心病辨證規(guī)律進行數(shù)據(jù)挖掘,提取出名老中醫(yī)診療冠心病、心絞痛的8個證候要素[14]。須義貞等采用貝葉斯網(wǎng)絡(luò)和方劑智能分析軟件對沈仲理教授診療子宮肌瘤醫(yī)案進行數(shù)據(jù)挖掘,得出沈仲理教授診療子宮肌瘤善用活血化瘀、清熱軟堅法,常用治療藥物包括三棱、莪術(shù)、丹參、半枝蓮、蚤休等[15]。貝葉斯網(wǎng)絡(luò)具有分類、聚類、因果分析等功能,面對大規(guī)模數(shù)據(jù)有其獨特的優(yōu)勢,具體包括:①學習機制高效靈活,可發(fā)現(xiàn)潛在的有用的模式或者聯(lián)系,實現(xiàn)對數(shù)據(jù)實例的分類、聚類、預(yù)測;②語義清晰,易于理解和接受,具有良好的預(yù)測能力;③有效避免對數(shù)據(jù)的過度擬合;④貝葉斯網(wǎng)絡(luò)可將先驗知識、樣本,主觀、客觀有機結(jié)合起來,更加全面反映數(shù)據(jù)對象內(nèi)在的聯(lián)系和本質(zhì)[16-17]。

1.3 神經(jīng)網(wǎng)絡(luò)的應(yīng)用 人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN ) 是由大量處理單位(即神經(jīng)元,neurons)廣泛連接而成的網(wǎng)絡(luò),是人工建立的以有項圖為拓撲結(jié)構(gòu)的動態(tài)系統(tǒng),通過對連續(xù)或斷續(xù)的輸入作狀態(tài)響應(yīng)而進行信息處理[18]。陳肇文利用人工神經(jīng)網(wǎng)絡(luò)建立名老中醫(yī)中醫(yī)方劑系統(tǒng)和中醫(yī)方證醫(yī)學診療系統(tǒng),可在線根據(jù)患者癥狀自動進行處方[19]。白云靜等利用人工神經(jīng)網(wǎng)絡(luò)技術(shù)開展中醫(yī)證候非線性建模研究,在充分辨識證候表征信息的基礎(chǔ)上,建立證候與癥狀之間的非線性映射函數(shù)[20]。陸萍等基于面診的證素辨證建立面診-證素辨證神經(jīng)網(wǎng)絡(luò),對64個病例進行證型辨別,結(jié)果表明,神經(jīng)網(wǎng)絡(luò)模型構(gòu)建的中醫(yī)面診系統(tǒng)能根據(jù)樣本值對網(wǎng)絡(luò)構(gòu)造和訓練,證型辨證結(jié)果準確率比較高,是可行的[21-23]。作為最常用的數(shù)據(jù)挖掘方法之一,神經(jīng)網(wǎng)絡(luò)具有很強的非線性擬合能力,可映射任意復(fù)雜的非線性關(guān)系,而且學習規(guī)則簡單,便于計算機實現(xiàn),具有很強的魯棒性、記憶能力、非線性映射能力以及強大的自學習能力。

1.4 決策樹算法的應(yīng)用 決策樹(decision tree)模型是一種自上而下的預(yù)測模型,其基本運算原理屬于分類規(guī)則,也就是說每個決策或者事件都能引出2個或者多個事件,繼而產(chǎn)生不同的后果,這種決策分支的圖像就像一棵樹的枝干,稱其為決策樹。決策樹以樣本的根節(jié)點開始,如果樣本在同一個類,則該結(jié)點為樹葉,算法選擇最有分類能力的屬性作為決策樹的當前結(jié)點,根據(jù)信息增益進行分裂,直到給定節(jié)點的所有樣本屬于同一類或沒有剩余屬性可供劃分為止[24]。瞿海斌等采用決策樹方法對血瘀證的診斷規(guī)則進行歸納,得到血瘀證決策分類模型,結(jié)果表明決策樹提取的診斷規(guī)則與傳統(tǒng)的醫(yī)學統(tǒng)計方法相比,更為簡單、方便,為從病例中自動歸納診斷規(guī)則提供了一種新的方法[25]。謝雁鳴等從臨床流行病學的角度用決策樹等方法對原發(fā)性骨質(zhì)疏松癥的中醫(yī)基本證候進行研究,得出原發(fā)性骨質(zhì)疏松癥的陰虛和陽虛診斷模型[26]。徐蕾等用信息熵的決策樹方法對慢性胃炎的中醫(yī)辨證進行研究,構(gòu)建以信息熵減少為特征的決策樹分類模型[27]。

1.5 復(fù)雜系統(tǒng)熵方法的應(yīng)用 2004 年,有學者發(fā)表了《“熵”在中醫(yī)方證研究中的運用》一文,在總結(jié)熵理論的基礎(chǔ)上,首次提出運用熵理論進行中醫(yī)方證相關(guān)研究的設(shè)想,并探討了證、熵、方結(jié)合的原理與前景[28]。通過實踐表明[29-30],該方法不僅可以應(yīng)用證候與方劑之間的相關(guān)性研究,還可以研究證候與證候之間、證候與癥狀之間、方劑中藥物與藥物之間、配伍中成分與成分之間的關(guān)系。其后,有學者提出了復(fù)雜系統(tǒng)熵聚類的算法,并在疾病、證候、方劑的相關(guān)性研究中得到了應(yīng)用[31]。復(fù)雜系統(tǒng)熵聚類方法是一種非監(jiān)督的模式發(fā)現(xiàn)算法,它能自組織地從海量的數(shù)據(jù)中提取出信息量最大的組合,同時,此方法特別適用于高度離散性類型的數(shù)據(jù)。相比于經(jīng)典的統(tǒng)計方法,它有以下幾個優(yōu)點。①不需要數(shù)據(jù)的一致性,對于各類數(shù)據(jù)都適合。特別針對具有隨機性,模糊性,非平衡性,非遍歷性,多維性特點的中醫(yī)藥數(shù)據(jù)。②它客觀地反映數(shù)據(jù)的情況,聚出來的組合內(nèi)元素的相關(guān)都特別大,是最優(yōu)的組合,這些組合為新藥發(fā)現(xiàn)中候選處方的篩選奠定了基礎(chǔ)。③相關(guān)是不對稱的,為定義貢獻度奠定了基礎(chǔ)。④算法收斂速度快,對于處理大量的數(shù)據(jù)有優(yōu)勢。此方法具有兩方面的顯著優(yōu)勢:一方面,不僅可以定性、還可以定量挖掘出藥物之間、病-證-癥-藥之間的相關(guān)性;另一方面,不僅可以挖掘出名醫(yī)名家經(jīng)驗的核心組合,還可以挖掘出隱藏于方劑配伍之中的而沒有被臨床醫(yī)家所重視的核心組合。筆者采用該方法對國醫(yī)大師顏正華教授治療胃脘痛、失眠等用藥規(guī)律進行挖掘,得出顏正華教授在治療胃脘痛、失眠的潛在藥物組合和新方,為深入研究和藥物開發(fā)奠定了基礎(chǔ)[11-12]。

2 數(shù)據(jù)挖掘在名老中醫(yī)經(jīng)驗傳承中的應(yīng)用展望

如上所述,關(guān)聯(lián)規(guī)則、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、決策樹等數(shù)據(jù)挖掘方法在名老中醫(yī)經(jīng)驗傳承研究中發(fā)揮著重要作用,是深入挖掘、繼承名老中醫(yī)的學術(shù)思想和臨床經(jīng)驗的有力工具。然而,每種數(shù)據(jù)挖掘方法都有其局限性和不足,均有其適應(yīng)范圍,且對數(shù)據(jù)有一定的要求。中醫(yī)藥數(shù)據(jù)挖掘的對象是中醫(yī)藥領(lǐng)域中積累的海量數(shù)據(jù),這些數(shù)據(jù)的屬性既有離散型的,又有連續(xù)型和混合型的特點,挖掘過程需要人機交互、多次反復(fù),在中醫(yī)藥專業(yè)背景知識引導下,針對具體問題,選擇合適的數(shù)據(jù)挖掘方法。同時,數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識的過程,融合了數(shù)據(jù)庫、人工智能、機器學習、統(tǒng)計學、知識工程、面向?qū)ο蠓椒ā⑿畔z索、高性能計算以及數(shù)據(jù)可視化等最新技術(shù)的研究成果,是一個多學科交叉研究領(lǐng)域。因此,數(shù)據(jù)挖掘具體方法需要有計算機、統(tǒng)計學等多學科交叉人員才能熟練應(yīng)用,不易被中醫(yī)藥臨床人員和學術(shù)繼承人等所掌握,這給數(shù)據(jù)挖掘方法在名老中醫(yī)經(jīng)驗傳承中的應(yīng)用帶來困難和挑戰(zhàn)。名老中醫(yī)經(jīng)驗的傳承最終的目的是老專家臨床經(jīng)驗和學術(shù)思想的總結(jié)和傳播,數(shù)據(jù)挖掘方法的應(yīng)用是有力的輔助手段,如何將相關(guān)挖掘方法進行集成并形成相應(yīng)的軟件,是數(shù)據(jù)挖掘方法在名老中醫(yī)經(jīng)驗傳承領(lǐng)域應(yīng)用的重要方向。

中醫(yī)藥的傳承經(jīng)過了口傳心授、紙質(zhì)文獻、電子文獻的過程,但是,尚不能有效滿足傳承的需要。中醫(yī)傳承包括豐富的內(nèi)容,有多種傳承模式,無論何種模式,收集整理臨床醫(yī)案是必不可缺的,因此,基于臨床數(shù)據(jù)的循證傳承是核心模式。中醫(yī)藥信息非標準化與個性化的特點,是中醫(yī)的一大特色,但同時也是中醫(yī)藥傳承信息化工作面臨的重要瓶頸。數(shù)據(jù)的零散性與非標準性,從根本上制約了中醫(yī)藥傳承信息化工作的效率與質(zhì)量。為此,中國中醫(yī)科學院中藥研究所與中國科學院自動化研究所聯(lián)合開發(fā)了中醫(yī)傳承輔助系統(tǒng)(traditional Chinese medicine inheritance support system)軟件[32]。該軟件在全面客觀地對中醫(yī)藥傳承模式及方法特點進行分析的基礎(chǔ)上,采用基于個性化需求的自助式服務(wù)平臺的構(gòu)建思路進行系統(tǒng)架構(gòu),以人工智能、數(shù)據(jù)挖掘、網(wǎng)絡(luò)科學等學科的方法和技術(shù)為支撐,圍繞臨床診療和中醫(yī)傳承工作中的繼承、發(fā)展、傳播和創(chuàng)新4個方面的核心需求,分別構(gòu)建面向臨床數(shù)據(jù)的中醫(yī)診療信息采集模塊、面向中醫(yī)藥本體的知識管理和服務(wù)模塊以及面向傳承創(chuàng)新的隱性知識挖掘模塊等幾大功能模塊,有效地解決了上述問題,從而保證了系統(tǒng)功能需求的有效實現(xiàn)。該軟件是計算機科學和中醫(yī)藥學的有機結(jié)合,它以智能信息處理方面的研究成果為支撐,遵循基于臨床數(shù)據(jù)的循證傳承理念,提出并鑲嵌了復(fù)雜系統(tǒng)熵聚類的挖掘方法,圍繞名老中醫(yī)學術(shù)思想總結(jié)和經(jīng)驗傳承、中藥新藥處方篩選與處方發(fā)現(xiàn)等方面的信息處理進行了積極的探索[33-34]。實現(xiàn)了“數(shù)據(jù)的錄入-管理-查詢-分析-網(wǎng)絡(luò)可視化展示”等功能的中醫(yī)傳承輔助平臺軟件的開發(fā)與應(yīng)用,在中醫(yī)傳承工作的具有里程碑意義,是中醫(yī)傳承的有力輔助工具,值得進一步推廣應(yīng)用。

[致謝] 該論文撰寫得到中國中醫(yī)科學院中藥研究所楊洪軍研究員的指導。

[參考文獻]

[1] 王映輝,姜在,劉保延,等.基于信息和數(shù)據(jù)挖掘技術(shù)的名老中醫(yī)臨床診療經(jīng)驗研究思路[J].世界科學技術(shù)――中醫(yī)藥現(xiàn)代化,2005,7(1):98.

[2] 周春祥.名老中醫(yī)經(jīng)驗總結(jié)與傳承過程中的問題與思考[J]. 江蘇中醫(yī)藥,2004,25(12):1.

[3] 唐仕歡,楊洪軍. 中醫(yī)組方用藥規(guī)律研究進展述評[J]. 中國實驗方劑學雜志,2013,19(5):278.

[4] 曾孝文.關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘方法的研究[J].計算機與現(xiàn)代化,2006,9:91.

[5] 吳嘉瑞,張冰.試論數(shù)據(jù)挖掘方法在藥品不良反應(yīng)評價領(lǐng)域的應(yīng)用[J].中藥新藥與臨床藥理,2007,18(6):485.

[6] 曾孝文.關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘與發(fā)展趨勢研究[J].電腦知識與技術(shù),2005,35: 4.

[7] 吳榮,王階,周雪忠.基于關(guān)聯(lián)規(guī)則的名老中醫(yī)冠心病用藥規(guī)律研究[J].中國中藥雜志,2007,32(17):1786.

[8] 劉曉怡,唐曉亮.基于關(guān)聯(lián)規(guī)則方法的李佃貴教授辨治慢性萎縮性胃炎醫(yī)案分析[J].中國外資,2012,264:258.

[9] 田琳,閆英杰,朱建貴,等.整理挖掘名老中醫(yī)診療眩暈病辨證思維模式的思路與探討[J].中國中醫(yī)基礎(chǔ)醫(yī)學雜志,2006,12(8):618.

[10] 晏婷婷,吳麗,王旭東.基于數(shù)據(jù)挖掘的孟河醫(yī)家治療痹證的治法及用藥規(guī)律研究[J].新中醫(yī),2012,44(9):98.

[11] 吳嘉瑞,張冰,楊冰.基于關(guān)聯(lián)規(guī)則和復(fù)雜系統(tǒng)熵聚類的顏正華教授治療胃脘痛用藥規(guī)律研究[J].中國實驗方劑學雜志,2012,18(20):1.

[12] 吳嘉瑞,張冰,楊冰,等.基于關(guān)聯(lián)規(guī)則和復(fù)雜系統(tǒng)熵聚類的顏正華教授治療失眠用藥規(guī)律研究[J].中國實驗方劑學雜志,2012,18(24):1.

[13] Muirhead R J,Pu R D.A Bayesian classi cation of heart rate variability data[J].Physica A,2004(336):503.

[14] 吳榮,聶曉燕,王階,等.基于貝葉斯網(wǎng)絡(luò)的名老中醫(yī)治療冠心病辨證規(guī)律研究[J].中國中醫(yī)藥信息雜志,2010,17(5):98.

[15] 須義貞,姚靜,趙莉.沈仲理治療子宮肌瘤診治規(guī)律的研究[J].陜西中醫(yī),2010,31(2):201.

[16] 李艷美,張卓奎.基于貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法[J].計算機仿真,2008,25(2):87.

[17] 劉曉潔. 基于PCA的貝葉斯網(wǎng)絡(luò)分類器研究[J].電子設(shè)計工程,2009,9:86.

[18] 岳桂華.人工神經(jīng)網(wǎng)絡(luò)及其在中醫(yī)研究中的應(yīng)用進展[J].大眾科技,2012,14(156):165.

[19] 陳肇文.基于人工神經(jīng)網(wǎng)絡(luò)的中醫(yī)證治模型探析[J].中華中醫(yī)藥學刊,2009,27(7):1517.

[20] 白云靜,申洪波,孟慶剛,等.基于人工神經(jīng)網(wǎng)絡(luò)的中醫(yī)證候非線性建模研究[J].中國中藥信息雜志,2007,14(7):3.

[21] 陸萍,林坤輝,周昌樂.基于神經(jīng)網(wǎng)絡(luò)的中醫(yī)面診證素辨證的研究[J].計算機應(yīng)用研究,2008,25(9):2655.

[22] 施明輝,周昌樂.人工神經(jīng)網(wǎng)絡(luò)在中醫(yī)診斷中的應(yīng)用現(xiàn)狀與趨勢[J].中國中醫(yī)藥信息雜志,2007,14(1):2.

[23] 岳沛平.BP神經(jīng)網(wǎng)絡(luò)識別在中醫(yī)脈象信號辨識系統(tǒng)中的運用[J].江蘇中醫(yī)藥,2005,26(11):4.

[24] 吳嘉瑞,張冰.試論數(shù)據(jù)挖掘決策樹方法在藥物警戒研究中的應(yīng)用[J].中國藥物警戒,2012,9(1):29.

[25] 瞿海斌,毛利鋒,王階.基于決策樹的血瘀證診斷規(guī)則自動歸納方法[J].中國生物醫(yī)學工程學報,2005,24(6):709.

[26] 謝雁鳴,朱蕓茵,葛繼榮,等.基于臨床流行病學調(diào)查的原發(fā)性骨質(zhì)疏松癥中醫(yī)基本證候研究[J].世界科學技術(shù)――中醫(yī)藥現(xiàn)代化,2007,9(2):38.

[27] 賀憲民,孟虹,王憶勤,等.基于熵的決策樹理論及其在中醫(yī)證型研究中的應(yīng)用[J].數(shù)理統(tǒng)計與管理,2004,23(5):57.

[28] 楊洪軍,趙亞麗,劉艷驕,等. “熵”在中醫(yī)方證研究中的運用[J]. 中國中醫(yī)基礎(chǔ)醫(yī)學雜志,2004,10(9):16.

[29] 趙亞麗. 一類復(fù)雜系統(tǒng)的熵方法研究[D]. 北京:中國科學院研究生院,2005.

[30] 孫占全. 復(fù)雜系統(tǒng)建模――一類智能計算模型及其應(yīng)用研究[D]. 北京:中國科學院研究生院,2007.

[31] 陳建新. 中醫(yī)證候的復(fù)雜系統(tǒng)建模及其與疾病的相關(guān)性研究[D]. 北京:中國科學院研究生院,2008.

[32] 盧朋,李健,唐仕歡,等. 中醫(yī)傳承輔助系統(tǒng)軟件開發(fā)與應(yīng)用[J]. 中國實驗方劑學雜志,2012,18(9):1.

[33] 唐仕歡,陳建新,楊洪軍,等.基于復(fù)雜系統(tǒng)熵聚堆方法的中藥新藥處方發(fā)現(xiàn)研究思路[J].世界科學技術(shù)――中醫(yī)藥現(xiàn)代化,2009,11(2):225.

[34] 申丹,唐仕歡,盧朋,等.含人參中成藥用藥規(guī)律分析[J].中國中藥雜志,2013,38(12):2029.

Comment on applications of data mining used in studies of heritage of

experiences of national medical masters

WU Jia-rui1,TANG Shi-huan2,GUO Wei-xian1,ZHANG Xiao-meng1,ZHANG Bing1*

(1.Beijing University of Chinese Medicine,Beijing 100102,China;

2. Institute of Chinese Materia Medica,China Academy of Chinese Medical Sciences,Beijing 100700,China)

[Abstract] Data mining,as known as knowledge discovery in databases,is a non-trivial process of revealing the implied,previously unknown and potentially useful information from the massive data. In recently years,the applications of data mining in the field of pharmaceutical research of traditional Chinese medicine have widespread. Especially in the field of the heritage of experiences of national medical masters,data mining plays an important role. In this study,we would expound of the use of methods of data mining in the heritage of experiences of national medical masters,and analyze their advantages and disadvantages,such as association rules,Bayesian networks,neural networks,and decision trees.

第8篇

[關(guān)鍵詞] 企業(yè)營銷 數(shù)據(jù)挖掘 決策 數(shù)據(jù)倉庫

一、引言

在市場競爭日趨激烈、商業(yè)環(huán)境發(fā)生巨大變化的時代,社會、技術(shù)、經(jīng)濟、政治等環(huán)境因素變得越來越復(fù)雜和難以預(yù)測,任何經(jīng)濟個人或企業(yè)單位都面臨著一個課題,就是如何想辦法采取營銷策略把自己的商品推銷出去。尤其社會是進入信息數(shù)字化階段后,該問題顯得更加突出,因此,如何利用數(shù)字化信息決定自己的企業(yè)決策方案變得非常重要。數(shù)據(jù)挖掘是解決該問題非常有效的技術(shù)。

二、數(shù)據(jù)挖掘(data mining)思想

數(shù)據(jù)挖掘是集統(tǒng)計學、人工智能、計算機等結(jié)合的交叉技術(shù)。數(shù)據(jù)挖掘也稱為知識發(fā)現(xiàn)(KDD―Knowledge Discovery in Database),其主要思想是可以從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識,并通過這些知識指導我們將來的工作,以提高效益。目前該技術(shù)在企業(yè)營銷中的應(yīng)用也是剛剛起步,但是已經(jīng)暗示了該技術(shù)在商業(yè)營銷活動中的潛在能力,尤其是在企業(yè)營銷決策系統(tǒng)當中的應(yīng)用,將會對企業(yè)營銷活動和決策和發(fā)展起到非常重要的作用。

三、數(shù)據(jù)挖掘技術(shù)簡介

數(shù)據(jù)挖掘是一個從存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他介質(zhì)種中的大量數(shù)據(jù)中發(fā)現(xiàn)人們感興趣的知識的過程。其的應(yīng)用過程可以描述為:按照既定目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法,并且最終將其在實踐中應(yīng)用的過程。

數(shù)據(jù)挖掘技術(shù)大體可以劃分成以下四個主要階段:數(shù)據(jù)準備、數(shù)據(jù)挖掘、表示與結(jié)果分析、知識應(yīng)用。其中數(shù)據(jù)挖掘是很關(guān)鍵的階段,主要包括:回歸分析、統(tǒng)計分析、聚類分析、神經(jīng)網(wǎng)絡(luò)、決策樹、探索分析等方法,這將決定數(shù)據(jù)挖掘的思路和最終實現(xiàn)的結(jié)果。

四、數(shù)據(jù)挖掘在企業(yè)營銷決策中的應(yīng)用簡介

企業(yè)營銷是企業(yè)戰(zhàn)略的重要組成部分,營銷戰(zhàn)略的制定與實施,在企業(yè)戰(zhàn)略中居于重要地位,是確保企業(yè)戰(zhàn)略得以實現(xiàn)的重要保證。

市場營銷管理,就是由企業(yè)市場部門根據(jù)戰(zhàn)略規(guī)劃所確定的業(yè)務(wù)經(jīng)營范圍、目標、業(yè)務(wù)組合和發(fā)展戰(zhàn)略,認真識別、分析、評價外部環(huán)境等因素。并用其去指導未來的發(fā)展戰(zhàn)略和計劃的過程。

數(shù)據(jù)挖掘技術(shù)在企業(yè)營銷決策中應(yīng)用的過程如下:

1.數(shù)據(jù)準備階段。數(shù)據(jù)挖掘的前提是必須要有大量的可靠的數(shù)據(jù),這需要企業(yè)營銷管理者平時對各種數(shù)據(jù)的積累,所需要的數(shù)據(jù)包括營銷企業(yè)內(nèi)部管理的數(shù)據(jù),營銷對象的相關(guān)信息,影響營銷管理和決策的各外界因素及數(shù)據(jù)。并且對數(shù)據(jù)要采取分類的方式進行管理,此時數(shù)據(jù)分類的標準是非常關(guān)鍵的,不但要考慮分類內(nèi)部數(shù)據(jù)之間的聯(lián)系,同時還要考慮各數(shù)據(jù)之間的關(guān)系。

2.數(shù)據(jù)挖掘階段。該階段主要是對存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)進行科學的方法進行分析,關(guān)鍵的數(shù)據(jù)挖掘方法的使用,常用的數(shù)據(jù)挖掘方法有:

(1)回歸分析,該方法利用一組觀測數(shù)據(jù)之間建立的依賴關(guān)系發(fā)現(xiàn)數(shù)據(jù)之間的聯(lián)系,并作出相關(guān)預(yù)測的方法。(2)時序分析,該方法注重數(shù)據(jù)之間時間的前后順序關(guān)系,并找出某事件在某個時間段內(nèi)發(fā)生的頻率。例如,某月某顧客在該糧店中購買的大米的次數(shù)和數(shù)量,這對分析顧客的消費水平和銷售數(shù)量有著非常大的幫助。(3)分類分析,在前面的數(shù)據(jù)倉庫里,對商品進行準確的描述,包括商品名稱,特征,面向顧客,數(shù)量等數(shù)據(jù)項,然后用相應(yīng)的分類標準將數(shù)據(jù)進行分類操作和管理。(4)聚類分析,通過分析數(shù)據(jù)倉庫中已經(jīng)分好類的數(shù)據(jù),將其按照預(yù)測的結(jié)果劃分不同的集合,并確定集合劃分的標準。

3.表示與結(jié)果分析。通過前面的過程,企業(yè)營銷決策管理者希望通過數(shù)據(jù)之間的關(guān)系得到相互數(shù)據(jù)的影響和關(guān)系,該結(jié)果以某種形式表示出來,一般都采用圖形、圖表或者數(shù)據(jù)報表的方式表示結(jié)果。通過結(jié)果進行相應(yīng)分析,希望得到諸如如何得到最有價值顧客、如何使用組合效果使銷售效率最好、如何留住有價值的顧客、以最小的成本發(fā)現(xiàn)欺詐行為等結(jié)論。

4.知識應(yīng)用。發(fā)現(xiàn)營銷規(guī)律和知識不是目的,將其應(yīng)用到企業(yè)營銷決策中才能夠起到真正的作用,并在不斷的營銷中對所得出的結(jié)論進行論證,并不斷的修正,使其更加合理,以便更加有利的指導營銷行為和決策。

五、未來的展望

第9篇

【關(guān)鍵詞】數(shù)據(jù)挖掘算法 并行模式

1 數(shù)據(jù)挖掘的挖掘任務(wù)和挖掘方法

跟數(shù)據(jù)挖掘相關(guān)的學科門類較多,其涉及的分類方法多種多樣。根據(jù)挖掘角度的差異性,可對數(shù)據(jù)挖掘方法歸類。由挖掘任務(wù)的不同,可將數(shù)據(jù)挖掘分為這幾種類型:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、異常和趨勢發(fā)現(xiàn)等;由挖掘?qū)ο蟮牟煌蓪?shù)據(jù)挖掘分為:面向?qū)ο髷?shù)據(jù)庫、文本數(shù)據(jù)源、異質(zhì)數(shù)據(jù)庫等;下文根據(jù)挖掘任務(wù)以及挖掘方法角度,重點對數(shù)據(jù)抽取、分類發(fā)現(xiàn)、聚類和關(guān)聯(lián)規(guī)則發(fā)現(xiàn)四種非常重要的發(fā)現(xiàn)任務(wù)進行闡述。一個典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)一般包括數(shù)據(jù)庫、數(shù)據(jù)倉庫等幾個部分。如圖1所示。

1.1 數(shù)據(jù)抽取

數(shù)據(jù)抽取是對給定數(shù)據(jù)的緊湊描述,其運用的手段就是對數(shù)據(jù)進行濃縮處理。其中,最簡單的一種數(shù)據(jù)抽取方法就是對數(shù)據(jù)庫中的各字段上的統(tǒng)計值進行計算,這些統(tǒng)計值一般包括和值、均值、方差值等,另外,使用折線圖等圖形對數(shù)據(jù)庫字段進行表示也是一種比較傳統(tǒng)而簡單的數(shù)據(jù)抽取方法。數(shù)據(jù)挖掘關(guān)注的焦點是以數(shù)據(jù)泛化的視角來討論數(shù)據(jù)總結(jié)。所謂數(shù)據(jù)泛化,把低層次的數(shù)據(jù)抽象到高層次的一個過程。之所以把低層次的數(shù)據(jù)抽象到高層次,這是因為大家有對視圖從較高層次處理或者瀏覽有關(guān)數(shù)據(jù)的需要,所以,通過對數(shù)據(jù)進行多層次的泛化是有其合理的解釋的。

1.2 分類發(fā)現(xiàn)

在數(shù)據(jù)挖掘的所有任務(wù)中,分類是其中極為重要的任務(wù)之一。在所有商業(yè)應(yīng)用的數(shù)據(jù)挖掘任務(wù)中,分類得到了最大范圍的應(yīng)用。我們知道,分類的目標是構(gòu)造分類函數(shù)或分類模型。在數(shù)據(jù)庫中,數(shù)據(jù)項在分類模型的作用下映射到某一個給定類別。在分類的用途中,預(yù)測是其中一個較為重要的用途。通過預(yù)測,從歷史數(shù)據(jù)記錄中推論得到給定數(shù)據(jù)的推廣描述,最后實現(xiàn)對未來數(shù)據(jù)的預(yù)測目標。在對分類器進行構(gòu)造的過程中,必須使用訓練樣本數(shù)據(jù)集作為輸入。訓練集一般由數(shù)據(jù)庫記錄或元組構(gòu)成,其中,元組是由特征向量組成的。樣本的一般形式為(u1,u2,...,un;c);其中 ui為字段值,c為類別。

1.3 聚類

聚類是把個體依據(jù)某種規(guī)律歸類成為若干類別的過程。其最終目標是使相同類別的個體之間距離最小,而不同類別個體間距離最大化。對于聚類而言,其研究方法一般有四種:統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫。通過對聚類分析方法的應(yīng)用實踐發(fā)現(xiàn),其僅僅適合于數(shù)據(jù)庫較小的情形,這是因為其不具備線性計算復(fù)雜度。

1.4 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)

關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的主要對象是事務(wù)型數(shù)據(jù)庫,針對的應(yīng)用是貨籃數(shù)據(jù)。一般而言,事務(wù)的組成部分不僅包括客戶訂購的物品,還包括客戶的標示號。隨著條形碼技術(shù)不斷得到推廣和應(yīng)用,采用前端收款機也可以獲得大量的售貨數(shù)據(jù)。所以,通過分析歷史事務(wù)數(shù)據(jù),可從顧客那里得到一些有價值的信息。比如,更好的解決擺放貨架商品和規(guī)劃市場的問題。所以,如果能從事務(wù)數(shù)據(jù)中找到關(guān)聯(lián)規(guī)則,這對于零售業(yè)等商業(yè)活動決策的重要性是不言而喻的。

2 關(guān)聯(lián)規(guī)則挖掘的并行算法分析

2.1 并行算法的基本概念

所謂并行算法,即對可同時執(zhí)行的進程集合,通過進程的協(xié)調(diào)作用,達到求解問題的目的。并行算法的設(shè)計是為了使并行機的眾多處理機作用得到最大程度的發(fā)揮,這樣就能更加快速有效解決問題。一般而言,并行算法對并行機存在非常強的依賴性。并行機的不同算法對其有效性會產(chǎn)生影響。

2.2 并行計算模型

要想對一個應(yīng)用問題進行求解,那么設(shè)計良好的并行算法極為重要。如果想讓并行算法作為一個由程序?qū)崿F(xiàn)結(jié)構(gòu)依賴的算法,那么抽象的并行計算機結(jié)構(gòu)是非常有必要的。這樣才能保障并行算法具有更廣泛的適應(yīng)性。并行計算模型作為一種并行計算機的抽象結(jié)構(gòu),主要考慮到的是為了并行算法的設(shè)計。所以,并行計算模型從實質(zhì)意義上來講,它是某一類并行計算機的抽象。

2.3 并行挖掘關(guān)聯(lián)規(guī)則的算法

在通常情況下,找出頻繁項目集的付出的資金要比從頻繁項目集中找出關(guān)聯(lián)規(guī)則的費用高的多。鑒于此,發(fā)現(xiàn)頻繁項目集的并行算法就具備了重要的意義。產(chǎn)生候選集的算法的計算工作,通常來講,可歸類為兩個步驟。其一為生成候選集,其二為對候選集的計數(shù)。為達到處理器間進行工作分配的目的,就需要使事務(wù)和候選集分配給各處理器的形式多樣化。為達到更優(yōu)的并發(fā)度,候選集可選擇并行計算,或者是并行產(chǎn)生,還可以是兩者并行完成。

3 小結(jié)

數(shù)據(jù)挖掘算法的并行性可對系統(tǒng)運行速度進行提升,從而提高工作效率,這是因為數(shù)據(jù)挖掘算法可實現(xiàn)對多個任務(wù)的執(zhí)行。數(shù)據(jù)挖掘算法并行方式存在差異性,所以,必須根據(jù)實際情況使用恰當?shù)耐诰蚍椒ǎ瑥亩寷Q策的作用得到最大程度的發(fā)揮。隨著數(shù)據(jù)量處理規(guī)模的逐漸增大,所以,對數(shù)據(jù)挖掘算法并行性研究的意義是不言而喻的。

參考文獻

[1]趙峰,李慶華.并行序列挖掘的一種改進算法[J].華中科技大學學報(自然科學版).2003,31(10):38-40.

[2]陳國良,安虹等.并行算法實踐[M].北京:高等教育出版社,2004.

[3]馬傳香,簡鐘.序列模式挖掘的并行算法研究[J].計算機工程,2005,31(06).

[4]施建強,劉曉平.基于遺傳算法的數(shù)據(jù)挖掘技術(shù)的研究[J].電腦與信息技術(shù),2003(01):9-14

第10篇

關(guān)鍵詞:數(shù)據(jù)挖掘;通信行業(yè);客戶關(guān)系;管理工作;開展進程

隨著社會經(jīng)濟的快速發(fā)展,通信行業(yè)的發(fā)展規(guī)模及數(shù)量不斷擴大與增多,但在激烈的市場競爭環(huán)境下,相關(guān)企業(yè)的生存與發(fā)展均面臨著諸多的挑戰(zhàn),為了占領(lǐng)更多的市場份額,實現(xiàn)企業(yè)穩(wěn)定與長足進步,并獲得良好的綜合效益,客戶關(guān)系管理得到了人們高度關(guān)注。近些年,通過國內(nèi)外學者的不斷努力研究,隨之出現(xiàn)了數(shù)據(jù)挖掘技術(shù),其作為先進的現(xiàn)代化技術(shù),應(yīng)用日漸廣泛與普遍,但關(guān)于其在通信行業(yè)的研究報道較少。因此,介紹了數(shù)據(jù)挖掘技術(shù)的基本概念,探討了其有關(guān)流程,同時重點分析了其在通信行業(yè)客戶關(guān)系管理中的應(yīng)用,旨在進一步完善有關(guān)理論,并為有關(guān)人士提供借鑒。

一、數(shù)字挖掘的基本概念探究

數(shù)據(jù)挖掘可以實現(xiàn)用戶的信息資源的相互交流和傳遞。同時數(shù)字挖掘技術(shù)的應(yīng)用,對于信息傳遞的流程存在著專門的定義和限制,具有強大的信息檢索功能。例如,應(yīng)用數(shù)據(jù)統(tǒng)計模塊查找定向信息,或者應(yīng)用互聯(lián)網(wǎng)的搜索功能進行相應(yīng)的網(wǎng)頁或者是網(wǎng)站的查找,則是數(shù)字挖掘技術(shù)中的信息檢索(informationretrieval)領(lǐng)域的技術(shù)。隨著數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍和應(yīng)用種類的不斷擴張,當下數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛的應(yīng)用于信息檢索工作的開展進程中。根據(jù)當下數(shù)字挖掘技術(shù)的主要應(yīng)用特點和應(yīng)用方向,主要可以將技術(shù)的類別總結(jié)為以下幾點:數(shù)字挖掘技術(shù)中的信息關(guān)聯(lián)技術(shù)、數(shù)字挖掘技術(shù)中的預(yù)測技術(shù)、數(shù)字挖掘技術(shù)中的分類技術(shù)以及數(shù)字挖掘技術(shù)中的排序技術(shù)。

二、數(shù)字挖掘在通信行業(yè)中客戶關(guān)系處理中的具體應(yīng)用流程探究

數(shù)字挖掘技術(shù)的應(yīng)用流程的良好確立,可以使得企業(yè)的客戶信息管理工作的開展更加具有系統(tǒng)性和全面性,有效的提高了通信企業(yè)的市場競爭力。為通信企業(yè)的良好發(fā)展奠定了穩(wěn)定的基礎(chǔ)和提供了強大的推動力。1.數(shù)據(jù)庫內(nèi)的數(shù)據(jù)信息歸類。對于營銷工作開展進程中的各種原始數(shù)據(jù)進行統(tǒng)計和收集,盡可能的保障各項數(shù)據(jù)的歸類的有效性和標準性。并且在數(shù)據(jù)庫內(nèi)的數(shù)據(jù)信息分類工作的開展進程中,充分的考慮不同的營銷數(shù)據(jù)的格式上的差異性,對于這些營銷數(shù)據(jù)進行統(tǒng)一的調(diào)整,實現(xiàn)數(shù)據(jù)庫內(nèi)的數(shù)據(jù)的系統(tǒng)性排列。2.數(shù)據(jù)庫內(nèi)信息的初步分析。按照數(shù)據(jù)庫內(nèi)的信息種類的不同以及內(nèi)容的不同,摘取信息內(nèi)的核心片段,進行數(shù)據(jù)內(nèi)容的初步分析,確定通信企業(yè)的營銷信息的核心,并且注重對于同種數(shù)據(jù)中所存在的變量的分析,進而初步掌握核心數(shù)據(jù)的變化情況和變化規(guī)律。3.應(yīng)用數(shù)據(jù)挖掘技術(shù)開展數(shù)據(jù)記錄工作。在明確了數(shù)據(jù)庫內(nèi)的各項核心數(shù)據(jù)之后,通信企業(yè)在應(yīng)用數(shù)據(jù)挖掘技術(shù)開展自身的客戶關(guān)系處理管理工作時,需要進行數(shù)據(jù)記錄工作。通常以客戶關(guān)系統(tǒng)計樹狀圖的方式進行客戶關(guān)系的進一步分類和管理,進而確保通信行業(yè)的客戶管理工作的開展的秩序性。

三、數(shù)據(jù)挖掘在通信行業(yè)客戶關(guān)系管理中的應(yīng)用方向探究

開展數(shù)據(jù)挖掘在通信行業(yè)客戶關(guān)系管理中的應(yīng)用方向探究,根據(jù)數(shù)據(jù)挖掘技術(shù)在通信行業(yè)客戶管理工作開展進程中的應(yīng)用流程以及當下的應(yīng)用狀況,主要可以將該技術(shù)的應(yīng)用方向總結(jié)歸納為以下幾點:1.應(yīng)用于通信行業(yè)客戶的信息數(shù)據(jù)處理工作。通信行業(yè)的客戶信息量十分巨大,并且存在著較強的復(fù)雜性,應(yīng)用數(shù)據(jù)挖掘技術(shù)開展通信行業(yè)客戶關(guān)系的處理工作,可以實現(xiàn)通信行業(yè)對于客戶的信息掌握的系統(tǒng)性的提升。在進行通信行業(yè)客戶的信息數(shù)據(jù)處理工作時,應(yīng)當著重開展對于流失的客戶的信息的處理,找出客戶的流失的根本原因,完善自身營銷模式的應(yīng)用流程中所存在的不足之處,有效的降低客戶流失量,盡可能的實現(xiàn)客戶的“有效回流”。2.應(yīng)用于通信行業(yè)客戶的關(guān)系模型建立工作。將數(shù)據(jù)挖掘技術(shù)的應(yīng)用與于通信行業(yè)客戶的關(guān)系模型建立工作的開展有效的結(jié)合到一起,可以實現(xiàn)通信企業(yè)對于客戶關(guān)系的掌握的具體性的進一步提升。通信企業(yè)在開展模型的建立工作的過程中,應(yīng)當同時建立客戶的營銷模型和客戶的流失模型,進行兩種模型內(nèi)的數(shù)據(jù)狀況的有效對比,進而實現(xiàn)通信企業(yè)的進一步營銷方案的有效的制定。3.加強通信行業(yè)的客戶管理工作的針對性。在傳統(tǒng)的信息行業(yè)的客戶關(guān)系管理工作開展進程中,客戶的信息的管理工作的開展往往缺乏針對性,因此通信企業(yè)在為客戶提供服務(wù)的過程中,其服務(wù)往往也就無法真正有效的滿足客戶的各項需求,造成了客戶的流失現(xiàn)象。將數(shù)據(jù)挖掘技術(shù)全面應(yīng)用于通信的企業(yè)的工作開展流程中,對于客戶的信息和需求進行更加詳細的分類和分析,提出具有針對性的特色服務(wù)方案,可以實現(xiàn)通信企業(yè)的服務(wù)的質(zhì)量的進一步有效的提升,加強通信企業(yè)在激烈的競爭市場中的市場競爭力,促使我國的通信企業(yè)獲得更加廣泛的發(fā)展空間和更加理想的發(fā)展前景。4.加強通信行業(yè)客戶反饋信息調(diào)研工作的開展力度。通信行業(yè)客戶反饋信息調(diào)研工作的開展力度,也是決定通信企業(yè)的客戶關(guān)系管理工作的開展力度的關(guān)鍵性因素之一。應(yīng)用數(shù)據(jù)挖掘技術(shù),開展客戶信息的挖掘工作,可以實現(xiàn)客戶反饋信息的明確性和全面性的進一步提升,有效的加強了調(diào)研工作的開展力度,繼而可以使得通信企業(yè)對于自身所需改進之處具有了更加明確的認知。

四、結(jié)語

綜上所述,在通信行業(yè)客戶關(guān)系管理中應(yīng)用數(shù)據(jù)挖掘技術(shù),彰顯了該技術(shù)的應(yīng)用優(yōu)勢,保證了客戶關(guān)系管理的成效,為了通信行業(yè)發(fā)展提供了可靠的技術(shù)保障。本研究在明確相關(guān)概念及開展流程基礎(chǔ)上,對數(shù)據(jù)挖掘技術(shù)的應(yīng)用展開了深入的探究,其主要應(yīng)用于信息數(shù)據(jù)處理及關(guān)系模型建立等方面,在先進技術(shù)支持下,通信行業(yè)的客戶關(guān)系管理具有了一定的針對性與高效性。實現(xiàn)數(shù)字挖掘技術(shù)的應(yīng)用與客戶關(guān)系處理工作的有效結(jié)合,以及實現(xiàn)我國的通信行業(yè)的整體管理水平的進一步有效提升,相信日后通信行業(yè)借助現(xiàn)代化的技術(shù)方法及多元化的管理手段,其競爭力將大幅度提高,進而利于企業(yè)健康與持續(xù)發(fā)展。

參考文獻:

[1]沈亮.數(shù)據(jù)挖掘在移動通信業(yè)客戶關(guān)系管理中的應(yīng)用研究[J].企業(yè)導報,2016,(12):28-29.

[2]鄭倩倩,智淑敏.數(shù)據(jù)挖掘在茶葉行業(yè)客戶關(guān)系管理系統(tǒng)的應(yīng)用研究[J].福建茶葉,2016,(03):98-99.

[3]廉祥麗.數(shù)據(jù)挖掘在電子商務(wù)客戶關(guān)系管理中的應(yīng)用分析[J].電子技術(shù)與軟件工程,2016,(01):179-180.

[4]胡彬.基于數(shù)據(jù)挖掘的移動通信公司客戶關(guān)系管理系統(tǒng)的分析設(shè)計[J].山東工業(yè)技術(shù),2015,(09):148.

[5]杜麗英,趙秀菊.數(shù)據(jù)挖掘在銀行客戶關(guān)系管理中的應(yīng)用分析[J].計算機光盤軟件與應(yīng)用,2014,(21):28-29.

[6]歐陽浩1,戎陸慶2,黃鎮(zhèn)謹1,陳波1,王萌1.SQLServer2008在煤炭企業(yè)智能客戶關(guān)系管理中的應(yīng)用研究[J].工礦自動化,2014,(03).

第11篇

關(guān)鍵詞:數(shù)據(jù)挖掘;圖聚類;分布式圖聚類

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2015)02-0014-02

分布式圖聚類在電子商務(wù)數(shù)據(jù)挖掘中的應(yīng)用是十分廣泛的。國家在網(wǎng)上購物的數(shù)量逐漸加大,網(wǎng)上商城的競爭力也逐漸地加大,各個網(wǎng)站都會使出渾身解數(shù)去驚醒電子商務(wù)數(shù)據(jù)挖掘,來為商家提供有力的資料來幫助自己進行商業(yè)上的改進和整編。但是隨著購物的數(shù)據(jù)的加大,分析數(shù)據(jù)的信息難度就越來越大,以往的數(shù)據(jù)類已經(jīng)滿足不了商家們對數(shù)據(jù)分析的要求,圖聚類的產(chǎn)生補充了數(shù)據(jù)類的不足,圖聚類解決了數(shù)據(jù)龐大的問題,可以說是電子商務(wù)發(fā)掘的進步。其中,最為代表性的就是分布式圖聚類。在我們國家的網(wǎng)上商城比如說;淘寶、天貓、京東、聚美優(yōu)品、蘇寧易購等個大知名網(wǎng)站,據(jù)網(wǎng)上的商家們都會對電子商務(wù)數(shù)據(jù)進行挖掘與研究,同時,使用分布式圖聚類方法的網(wǎng)站不在少數(shù)。分布式圖聚類它解決了數(shù)據(jù)量大難以正確的評估、從而導致計算失誤的發(fā)生。經(jīng)過許多次的實驗,我們發(fā)現(xiàn)分布式圖聚類是非常穩(wěn)定與安全的。分布式圖聚類的產(chǎn)生促進了電子商務(wù)數(shù)據(jù)挖掘的發(fā)展,在對數(shù)據(jù)的穩(wěn)定性與安全性中也有了很大的進步。

1 分布式圖聚類的應(yīng)用

分布式圖聚類的應(yīng)用在我國可以說是被廣泛地應(yīng)用,由于它自身的優(yōu)點和好處所以備受廣大商家采用。分布式圖聚類的特點主要是針對相對較大的規(guī)模的數(shù)據(jù)進行分析和處理,這是傳統(tǒng)聚圖類無法做到的。它既能省去很多商家因為計算數(shù)據(jù)而產(chǎn)生的極大的成本,還能保證我們所得到的數(shù)據(jù)的真實和準確。分布式圖聚類的發(fā)現(xiàn)與應(yīng)用可以說是電子商務(wù)數(shù)據(jù)挖掘中的一個進步與提高。

1)什么是分布式圖聚類

我們可以知道在科技日益發(fā)展的今天,越來越多的人在熟用電腦并在網(wǎng)上購物,進行交易。隨著數(shù)量的日益增加,網(wǎng)上商城的電子商務(wù)數(shù)據(jù)挖掘就愈來愈難,原來傳統(tǒng)的數(shù)據(jù)統(tǒng)計方式很快就跟不上節(jié)奏,所以適合大規(guī)模的分布時局圖類孕育而生。分布式圖聚類是大量數(shù)據(jù)集中的一套編碼,編集的一套電子程序。他的規(guī)模之大可以把數(shù)百臺或數(shù)千臺電腦聯(lián)系在一起進行計算和研究。分布式圖聚類的優(yōu)點是可以進行大規(guī)模的數(shù)據(jù)計算。

2)電子商務(wù)的數(shù)據(jù)挖掘

電子商務(wù)的數(shù)據(jù)挖掘是在網(wǎng)絡(luò)當中存在的網(wǎng)絡(luò)商家在真實的交易中保存下來的數(shù)據(jù),然后把這些數(shù)據(jù)變成數(shù)據(jù)庫。商家要把存留下來的數(shù)據(jù)庫進行計算,整理,然后挖掘出對商家有利的信息。商家再根據(jù)數(shù)據(jù)的顯示進行一系列的變動和調(diào)整,根據(jù)數(shù)據(jù)反映客戶的需要,擴寬自己的市場。聚類分析就是研究數(shù)據(jù)挖掘后的一個技術(shù)性的研究。分析會根據(jù)商家的真實存在的問題進行數(shù)據(jù)上的計算和研究,這種方法備受商家的歡迎,同時也滿足了商家對科學的研究自己市場的一種需求。雖然數(shù)據(jù)挖掘等工作進行十分的順暢,但是,社會是高速的發(fā)展的,更多的問題也會頻頻的出現(xiàn)。現(xiàn)如今,網(wǎng)絡(luò)商城的日益豐富,出現(xiàn)了各種各樣形式的商城,競爭十分激烈。商家如何把自己的數(shù)據(jù)庫進行嚴格的分類和整合,如何更加詳細的反映出客戶的反映,是現(xiàn)在電子商務(wù)數(shù)據(jù)發(fā)掘的重中之重。

3)圖聚類算法的種類

圖聚類算法的種類十分的多,下面我們簡單地介紹幾個圖聚類算法的種類;

第一,譜聚類,它是類似于矩形的一種分類圖形。它是通過分割矩形的方法來進行對比與研究。譜聚類的研究主要是如何才能做到把主題矩形劃分成最佳的狀態(tài),來進行分析。譜聚類是很有研究性的一個聚類法。比如說,我們想構(gòu)建的這一個矩形是通過什么根據(jù)來創(chuàng)建的、又或者是我們有如何通過數(shù)據(jù)研究進行劃分這個矩形等等一系列的問題都值得我們?nèi)パ芯刻剿鳌?/p>

第二,基于密度的聚類,它是一個使用消耗特別大的一個聚類法。基于密度類聚,顧名思義它是通過數(shù)據(jù)的密度來驚醒的圖聚類。這種算法的好處是,之前不用任何的計算或是安排,直接進行數(shù)據(jù)的統(tǒng)計。

第三,位置敏感哈希聚類算法,它是通過數(shù)據(jù)的相識度較高,或是鄰近的數(shù)據(jù)進行計算。通過計算,我們會更加清晰地看出相似的結(jié)論,這種方法相對于基于密度的聚類的算法節(jié)約成本,也能清楚地反映問題,但是也要因人而異。

雖然有許多這種聚類圖,但是也要因事而異。而且要注意的是,每一種聚類圖的算法是不同的,所以,他得出的理論也可能是不一樣的。我們要仔細的分析,那些數(shù)據(jù)需要哪種聚類圖會更加的合適等等。就比如說,我們需要知道客戶在購買時更加傾向于購買哪類的商品比較多一些,再或者說是客戶對商品的評價進行統(tǒng)計等等,我們要選者不同的方法,不能一條路走下去,要懂得變通。要知道只有適合的才是最好的。

2 分布式圖聚類在電子商務(wù)數(shù)據(jù)研究發(fā)掘中的應(yīng)用

電子商務(wù)數(shù)據(jù)發(fā)掘研究是極其復(fù)雜的,而分布式圖聚類并不是唯一的研究總結(jié)數(shù)據(jù)的方法。但分布式圖聚類是十分重要的方式。隨著電子網(wǎng)絡(luò)的迅速發(fā)展,網(wǎng)上購物的客戶越來越多,數(shù)據(jù)庫的儲備量逐漸地加大。電子商務(wù)數(shù)據(jù)研究發(fā)掘呈現(xiàn)越來越難的趨勢。這些客戶的數(shù)量要比想象中的要大得多,而且,計算起來十分的復(fù)雜。電子計算已經(jīng)跟不上那么龐大的數(shù)量。傳統(tǒng)的計算法存在的缺點主要是不能計算數(shù)量龐大的數(shù)據(jù)庫,而且計算的事件上加大了時間和精力,也就是效率不高。還有就是,面對相對較大的數(shù)據(jù)根本做不出處理,他的實用性并不是很高,不能做出我們所期望的數(shù)據(jù)。這就出現(xiàn)了這樣的一個問題,怎樣才能把熟練龐大的數(shù)據(jù)庫計算起來,從而更加準確的進行商務(wù)數(shù)據(jù)的挖掘。

由于數(shù)據(jù)挖掘的需要,圖聚類應(yīng)運而生。圖聚類的計算法十分的多樣化,相對于數(shù)據(jù)聚類算法來說大大地提升了效率,節(jié)省了時間。同時,面對數(shù)量龐大的數(shù)據(jù)庫的時候也能運行,不像以往的計算法那樣。圖聚類可以說是現(xiàn)在相對較好的計算方法,也是符合許多網(wǎng)絡(luò)商家的需要。圖聚類分很多種類型,其中我們說的就是分布式圖聚類在電子商務(wù)中的數(shù)據(jù)挖掘中的應(yīng)用。對于圖聚類來說,分布式圖聚類在數(shù)據(jù)挖掘上的應(yīng)用還是十分的廣泛的。分布式圖聚類是一種把數(shù)據(jù)相互聯(lián)系的一種計算方式,它可以進行大規(guī)模的運算和分析。這種算法被很多商家采用。例如;某網(wǎng)上購物的網(wǎng)站上想要進行一次客戶對哪些商品的需求量的調(diào)查研究,但是客戶的數(shù)量大且關(guān)系復(fù)雜,對于調(diào)查研究來說具有一定的難度。這時,分布式圖聚類來說就派上了用場,它對于數(shù)據(jù)之間的關(guān)系研究十分的到位,同時數(shù)量上也不成問題。運用分布式圖聚類計算這種數(shù)據(jù)是十分的適合的,分析的內(nèi)容十分的穩(wěn)定與準確。所以,廣大商家十分青睞與分布式圖聚類對于電子商務(wù)數(shù)據(jù)挖掘的應(yīng)用。

3 分布式圖聚類分析的結(jié)果的表達

分析的結(jié)果是對電子商務(wù)數(shù)據(jù)挖掘的總結(jié)。不要小瞧這一個部分,雖然看似簡單但是如果表達不當,是會影響到數(shù)據(jù)的評估水平和準確性。正確的表達是準確評估的一部分。我們?nèi)绾螠蚀_結(jié)果的表達和分析呢?首先,我們要保證我們數(shù)據(jù)的準確性和完整性,保證我們現(xiàn)在的數(shù)據(jù)的時間,內(nèi)容都十分的重要。這是評估結(jié)果是否準確十分的重要。運用正確的圖聚類進行分析和統(tǒng)計,一定要是適合我們想要知道的信息相符合的圖聚類,不然,運用不當會出很大的偏差。我們可以用圖把清晰的條理表達出來。直到讓我們更加直觀的一眼就看出來關(guān)聯(lián)性的數(shù)據(jù)。還可以運用表格之類的相對于比較直觀的表現(xiàn)形式來表達出來。其實,表達的主要目的就是怎樣可以讓公司的領(lǐng)導者能夠迅速的明白數(shù)據(jù)所表達的含義和內(nèi)容。然后才能正確地做出判斷,提出幫助公司發(fā)展的政策。如果我們能正確地運用數(shù)據(jù)挖掘技術(shù)就能夠把復(fù)雜,數(shù)量繁多的數(shù)據(jù)信息轉(zhuǎn)變成清晰、直觀,讓人一目了然的數(shù)據(jù)或是數(shù)據(jù)圖等等。同時,如果正確地分析了數(shù)據(jù)還可以讓商家找到正確的方式去經(jīng)營店鋪,讓后制定出符合科學依據(jù)的方案,也會找到商機,創(chuàng)造未來。

我們對數(shù)據(jù)的研究不是一個簡單的過程,而是要一遍一遍的去研究,去探索,去找尋不同的方法,所以,端正我們的態(tài)度十分的重要。認真地完成了每一個步驟,我們就離成功不遠了。

4 總結(jié)

經(jīng)過研究,分布式圖聚類在電子商務(wù)數(shù)據(jù)挖掘中的應(yīng)用十分的廣泛。同時分布式圖聚類的優(yōu)點也是值得我們?nèi)ミ\用與學習的。分布式圖聚類被許多商家所青睞和認可,分布式圖聚類的數(shù)據(jù)挖掘也為商家?guī)砹撕艽蟮氖找妗R材軌蛘鎸嵉胤从吵鰯?shù)據(jù)所涵蓋的信息量,并且減少數(shù)據(jù)統(tǒng)計的成本。由此證明,分布式圖聚類在電子商務(wù)挖掘信息中是十分重要和有效的。也是電子商務(wù)中不可或缺的一部分。但是,在本文中我們也提及了其他圖聚類的方法,我想讓大家知道,分布式圖聚類雖然適合大規(guī)模的數(shù)據(jù)統(tǒng)計,也能清楚,穩(wěn)定的表現(xiàn)出數(shù)據(jù)之間的關(guān)系和內(nèi)容。但是,分布式圖聚類并不是全部實用,我們要做好電子商務(wù)數(shù)據(jù)挖掘就一定要找到適合數(shù)據(jù)的圖聚類,不要只用一個方法,這樣統(tǒng)計出來的數(shù)據(jù)會大打折扣。希望我們能夠正確的運用數(shù)據(jù)計算分析方式,反映出最全面的信息。

參考文獻:

[1] 溫菊萍,鐘勇.圖聚類的算法及其在社會關(guān)系網(wǎng)絡(luò)中的應(yīng)用[J].計算機應(yīng)用于軟件,2010,29(2):161-162.

第12篇

【關(guān)鍵詞】數(shù)據(jù)挖掘技術(shù);電信客戶流失預(yù)警;應(yīng)用

隨著電信企業(yè)的發(fā)展,企業(yè)之間的競爭不斷加劇,電信運營商也在不斷地推出新的業(yè)務(wù)與套餐,以此來在占領(lǐng)市場競爭高地。但是,與此同時,也大大增加了客戶的不穩(wěn)定性,而數(shù)據(jù)挖掘技術(shù)的應(yīng)用,有效地降低了客戶離網(wǎng)率。因此,對數(shù)據(jù)挖掘技術(shù)在電信客戶流失預(yù)警中應(yīng)用的探討有其必要性。

一、數(shù)據(jù)挖掘技術(shù)應(yīng)用的重要性

伴隨著經(jīng)濟全球化,市場的國際化,目前我國國內(nèi)市場的競爭也變得日加激烈,因此,電信企業(yè)傳統(tǒng)的經(jīng)營模式已經(jīng)不能夠完全適應(yīng)市場的需要。為此,電信企業(yè)的市場戰(zhàn)略定位需要從傳統(tǒng)的生產(chǎn)型企業(yè)向利潤型企業(yè)進行轉(zhuǎn)化,從而來求更好的生存與發(fā)展。為此,這就要求電信企業(yè)必須圍繞客戶展開市場分析,全面了解客戶的實際需求,做到服務(wù)的層次化、多樣化以及全面化,并且提出個性化的解決方案。但是,在市場發(fā)展的過程中,由于市場的飽和以及客戶發(fā)展的減速,這使得電信企業(yè)客戶的維系成為一個熱點問題。因此,在這樣的競爭環(huán)境下,企業(yè)極需完善業(yè)務(wù)管理系統(tǒng)以及生產(chǎn)系統(tǒng),引進數(shù)據(jù)挖掘系統(tǒng),加強系統(tǒng)構(gòu)建,如渠道系統(tǒng)、BOSS系統(tǒng)以及綜合結(jié)算系統(tǒng)等,通過這些系統(tǒng),收集大量的數(shù)據(jù),對企業(yè)的運營情況作出具體性的分析,既可以加強對客戶消費行為的了解,而且針對企業(yè)某項業(yè)務(wù)在市場中的運行情況進行預(yù)測分析和運行情況分析,以指導企業(yè)做出更好的解決方案,為企業(yè)創(chuàng)造更大的利潤。

另外,集成客戶數(shù)據(jù)是電信企業(yè)發(fā)展最為寶貴的資源,而數(shù)據(jù)挖掘技術(shù)的應(yīng)用可以將大量的客戶數(shù)據(jù)提取出來,包括現(xiàn)有的客戶數(shù)據(jù)、流失數(shù)據(jù)、增加數(shù)據(jù)等,在此基礎(chǔ)上,根據(jù)客戶行為、客戶屬性以及服務(wù)屬性,構(gòu)建相關(guān)數(shù)學模型,計算與分析客戶流失概率,同時,根據(jù)這些數(shù)據(jù)之間的相互關(guān)系,得出相關(guān)的數(shù)學公式,從而來改善企業(yè)的促銷手段,提高服務(wù)質(zhì)量以及客戶忠誠度,預(yù)防客戶的流失,更為重要的是解決了電信企業(yè)傳統(tǒng)運營模式上無法監(jiān)控客戶流失、無法實現(xiàn)客戶關(guān)懷的難題。

二、數(shù)據(jù)挖掘技術(shù)在電信客戶流失預(yù)警中的應(yīng)用

對于電信企業(yè)而言,海量的客戶數(shù)據(jù)是企業(yè)的一筆巨大財富,簡單來講,企業(yè)若是能夠及時準確地挖掘出數(shù)據(jù)中的信息,并且從中分析出隱含的價值信息與知識,就能制定出科學的運營方案,才能更好地為客戶提供服務(wù),進而在市場競爭中取得一席之地。而數(shù)據(jù)是從中大量的信息中挖掘出來的規(guī)律、知識以及價值模式等,數(shù)據(jù)的形成是一個復(fù)雜的過程,因此,數(shù)據(jù)挖掘技術(shù)的定義可以通過以下圖示具體地反應(yīng)出來:

而所謂的客戶流失預(yù)警模型的構(gòu)建就是基于數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,對電信運營狀態(tài)以及客戶狀態(tài)的一種分析與判斷系統(tǒng),從本質(zhì)上講,就是對數(shù)據(jù)特征的一種挖掘,同時,也是一種分類問題。通過其主要將客戶信息分為兩大類,一種是有離網(wǎng)傾向的客戶,一種無離網(wǎng)傾向的客戶,以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),對已離網(wǎng)客戶的信息進行特征分析,進行總結(jié)歸納,并作為參照,若企業(yè)產(chǎn)生新的客戶信息時,以此來識別其是否存在離網(wǎng)傾向,確定其是否在企業(yè)對客戶維護開銷范圍內(nèi),若是低于此開銷值,則說明其不具有任何產(chǎn)生價值,自然,相關(guān)信息也就應(yīng)該刪除。在這里,主要客戶流失預(yù)警模型中數(shù)據(jù)挖掘技術(shù)的應(yīng)用進行具體分析:

首先是客戶劃分。一般而言,對于電信企業(yè),客戶劃分方法多種多樣,如客戶年齡、性別以及信用度和支付能力等,這些都可以作為劃分客戶的具體參照。但是由于一個企業(yè)最為主要的目的就是利潤的產(chǎn)生,為此,我們應(yīng)該以客戶對企業(yè)貢獻大小為主要參考依據(jù)進行科學劃分,具體為三種,即低價值客戶、普通價值客戶以及高價值客戶。

其次是屬性分析。在進行客戶流失預(yù)警分析中,其影響因素是多方面的,而這些因素之間的關(guān)系也或強或弱,若以所有屬性為標準,那么分析過程顯得過于復(fù)雜,這樣,在實時環(huán)境以及追溯目標的過程中,要想識別是存在著一定難度的,但是,若是從中抽取某幾個屬性,那么系統(tǒng)的預(yù)警效果則會大大降低。因此,最為有效的解決方法就是采用約簡算法,將這些相互關(guān)聯(lián)的屬性進行融合處理,并從中抽取關(guān)鍵性因素,重新構(gòu)造關(guān)鍵指標,形成新的線性組合,進而獲取最有效的價值信息,取得最為有效的預(yù)測效果。本文運用多元統(tǒng)計中的因子分析方法,結(jié)合SPSS軟件,得到一組流失預(yù)警中可用的因子(屬性)集合,具體內(nèi)容如表1所示:

第三是特征挖掘。關(guān)于數(shù)據(jù)特征的挖掘具體包括以下幾個內(nèi)容:一是數(shù)據(jù)抽取,簡單來講,將業(yè)務(wù)系統(tǒng)中所儲存的離網(wǎng)數(shù)據(jù)信息,進行分析整合,并作為訓練數(shù)據(jù)集合,同時,進行屬性約簡,將所得到的相關(guān)數(shù)據(jù)輸入數(shù)據(jù)庫中,作為模型數(shù)據(jù);二是將輸入的數(shù)據(jù)運用慢啟動頻繁模式進行數(shù)據(jù)分析與挖掘,歸納流失客戶特征信息,并在此基礎(chǔ)上,構(gòu)建相應(yīng)的分類器;三是輸入測試數(shù)據(jù),這一部分數(shù)據(jù)集合主要是由新的客戶數(shù)據(jù)組成,經(jīng)過約簡后,作為測試模型;四是將分類器中的數(shù)據(jù)特征與挖掘到的新的客戶信息進行模式匹配,以此來確定客戶是否存在著離網(wǎng)傾向,若是存在離網(wǎng)傾向,那么需要將這些數(shù)據(jù)反饋給客戶挽留系統(tǒng)或者是客戶維護系統(tǒng),從而為客戶開展針對性的服務(wù),一方面,為客戶部門的服務(wù)工作提供了重要參考依據(jù),另一方面,還可以為企業(yè)客戶維護工作決策提供參考。

三、仿真及結(jié)果驗證

基于數(shù)據(jù)挖掘技術(shù)的電信客戶流失預(yù)警模型,在某地電信運營公司展開實地測試,該企業(yè)根據(jù)其實際情況,構(gòu)建了客戶流失預(yù)警模型,并在此基礎(chǔ)上,全面展開客戶挽留與客戶維護工作,同時,根據(jù)系統(tǒng)提供的數(shù)據(jù)信息,分析流失客戶的特征,在每月的月初進提供客戶名單,該企業(yè)在2012年8月的流失預(yù)警客戶的具體數(shù)據(jù)如表2所示:

根據(jù)客戶流失預(yù)警模型的分析,得到的流失預(yù)警數(shù)據(jù),該企業(yè)客戶服務(wù)部門分別在6、7、8月份對8259戶、9001戶、8975戶客戶進行了回訪,其回訪的成功率分別為90.12% 、89.67% 、88.56%,其中,在這些回訪的客戶中,將近85%以上的客戶表達了自己近期有離網(wǎng)打算,但是經(jīng)過客戶部門的回訪,結(jié)合針對性的處理措施以及挽留措施,99%以上的客戶均打消了離網(wǎng)的意圖。

四、總結(jié)

總而言之,客戶流失預(yù)警模型的構(gòu)建通過對客戶所處狀態(tài)的判斷,確定客戶是否存在離網(wǎng)意圖,并且綜合企業(yè)維護運行成本、客戶消費價值、客戶屬性以及客戶使用習慣等,對客戶進行細分,針對不同的客戶提出不同的營銷方式,并在此基礎(chǔ)上,通過反饋數(shù)據(jù),完善客戶服務(wù),提高產(chǎn)品服務(wù)質(zhì)量,最終達到拘留客戶的目的。

參考文獻:

[1]蔣亞虎.基于SQL Server的OLAM模塊研究[J].制造業(yè)自動化.2011(16).

[2]莊仁團.數(shù)據(jù)挖掘技術(shù)在電子政務(wù)系統(tǒng)中的應(yīng)用[J].海峽科學.2011(05).

亚洲精品无码久久久久久久性色,淫荡人妻一区二区三区在线视频,精品一级片高清无码,国产一区中文字幕无码
中日韩亚洲免费视频 | 亚洲无线码高清在线观看 | 最新国产精品拍自在线播放 | 伊人久久大香线蕉综合不卡 | 中字幕久久国产精品免费 | 日本中文字幕在线视频播二区 |