時間:2022-07-10 09:35:10
開篇:寫作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數(shù)據(jù)挖掘課程,希望這些內(nèi)容能成為您創(chuàng)作過程中的良師益友,陪伴您不斷探索和進(jìn)步。
1、數(shù)據(jù)挖掘類課程設(shè)計研究基礎(chǔ)
國外很多大學(xué)都開設(shè)了數(shù)據(jù)挖掘類課程,波士頓大學(xué)的“數(shù)據(jù)管理與商務(wù)智能”課程主要包括基礎(chǔ)、核心技術(shù)、應(yīng)用三部分。授課方式包括理論內(nèi)容講授、案例教學(xué),以及學(xué)生以團(tuán)隊合作方式完成項目并進(jìn)行課堂演講。從麻省理工學(xué)院開放性課程資料(斯隆管理學(xué)院)中可以看出,在每章講解一種算法之后都盡可能地安排了商務(wù)實例的分析,并在課程后期安排了客座講座的形式。國內(nèi)對于數(shù)據(jù)挖掘的教學(xué)類研究成果也很多,主要集中在三類問題的研究上,較為普遍的是根據(jù)專業(yè)建立大綱的研究,例如針對電子商務(wù)專業(yè)進(jìn)行大綱設(shè)計;另外也有專注研究某一種或多種適合數(shù)據(jù)挖掘或商務(wù)智能的教學(xué)方法,如專題研討法;還有的討論算法理解與程序設(shè)計、軟件應(yīng)用的關(guān)系。
2、基于模塊化方法的課程內(nèi)容分析
模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來設(shè)計教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標(biāo)指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標(biāo)準(zhǔn)或規(guī)則進(jìn)行分解,使其成為多個相對獨立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。該方法在20世紀(jì)70年代,由國際勞工組織引入教學(xué)之中,開發(fā)出以現(xiàn)場教學(xué)為主,以技能培訓(xùn)為核心的模塊化教學(xué)模式,在很多國家得到廣泛應(yīng)用。由于該教學(xué)法具有針對性、靈活性、現(xiàn)實性等特點,越來越受到教育界的關(guān)注。模塊化教學(xué)本質(zhì)上是以知識點與實踐的細(xì)化為出發(fā)點研究,本課程的知識點細(xì)化分為兩個層次:一是從宏觀角度,參考ACM的SIGKDD的數(shù)據(jù)挖掘課程建設(shè)建議,設(shè)計課程的基礎(chǔ)內(nèi)容模塊和高級主題模塊;二是從微觀角度,針對較為復(fù)雜的算法進(jìn)行的知識點劃分。課程內(nèi)容的一至五章屬于基礎(chǔ)內(nèi)容模塊,介紹本課程的基礎(chǔ)理論和入門的數(shù)據(jù)挖掘技術(shù);六至第八章介于基礎(chǔ)內(nèi)容與高級主題之間,介紹數(shù)據(jù)挖掘的核心算法,可以根據(jù)學(xué)生情況進(jìn)行靈活處理,可強(qiáng)調(diào)應(yīng)用,也可深化算法介紹;第九、十章為高級主題模塊,可以作為擴(kuò)展材料介紹應(yīng)用,或為感興趣同學(xué)提供算法介紹;課程實踐模塊包含數(shù)據(jù)倉庫建設(shè)與數(shù)據(jù)挖掘算法的應(yīng)用,難度居中,可以在引導(dǎo)學(xué)生思考的前提下給出實驗步驟,并引導(dǎo)學(xué)生使用類似的方法處理不同的數(shù)據(jù)。
3、基于模塊化方法進(jìn)行重要知識點的模塊化分析
重要知識點內(nèi)涵較為豐富,一般體現(xiàn)在經(jīng)典數(shù)據(jù)挖掘算法上,通常一大類算法下還分有多個算法,不同算法的在難度上有漸進(jìn)層次,同一種算法也有很大改進(jìn)研究空間,講授彈性比較大。因此,適合使用模塊化方法進(jìn)行處理,并且需要在課程設(shè)計中明確一定課時量所要達(dá)到的內(nèi)容和難度。基礎(chǔ)部分為必選內(nèi)容,介紹基本概念和基本原理;決策樹作為數(shù)據(jù)挖掘分類算法的最基礎(chǔ)算法也是必選內(nèi)容,決策樹算法有多種分類,需要進(jìn)行按照難易程度進(jìn)行選擇;最后要根據(jù)難度選擇其他分類算法進(jìn)行介紹。
4、結(jié)論
本文使用了模塊化教學(xué)的思想研究了數(shù)據(jù)挖掘類課程設(shè)計的過程,主要包括課程內(nèi)容的模塊化處理與重要知識點的模塊化處理。對課程內(nèi)容進(jìn)行模塊化處理,可以方便教師實行不同的授課方式和考查方式,可以使學(xué)生從宏觀角度明確課程重點和難點提高學(xué)生的聽課效果。對知識點的內(nèi)容進(jìn)行模塊化處理,可以幫助學(xué)生了解哪些是基礎(chǔ)知識,哪些是需要擴(kuò)展和探索的內(nèi)容,為將來深入學(xué)習(xí)打下基礎(chǔ),同時也有助于教師及時了解學(xué)生對知識點的掌握程度。對于難度跨度較大的章節(jié),可以選用專題探討式教學(xué)方法提升學(xué)生上課的興趣、有效提高學(xué)生對知識點的理解程度,對于實踐教學(xué)環(huán)節(jié),選用商務(wù)智能和數(shù)據(jù)挖掘軟件幫助學(xué)生理解方法的應(yīng)用。隨著數(shù)據(jù)挖掘、云計算、大數(shù)據(jù)的發(fā)展,數(shù)據(jù)挖掘類課程的課時量、實踐教學(xué)環(huán)節(jié)都會在教學(xué)計劃調(diào)整過程中增加,對教學(xué)內(nèi)容的模塊化分類以及相應(yīng)的授課方式的研究成果仍可繼續(xù)發(fā)揮作用,并進(jìn)行更深入的研究和實踐。
作者:胡敏單位:北京信息科技大學(xué)信息管理學(xué)院
課程相關(guān)性分析數(shù)據(jù)挖掘相關(guān)分析典型相關(guān)分析關(guān)聯(lián)規(guī)則一、引言
課程是實現(xiàn)教學(xué)內(nèi)容傳遞的集中體現(xiàn),是學(xué)校教育的目的性、計劃性和組織性的集中體現(xiàn)。課程設(shè)置規(guī)定著課程類型、課程性質(zhì)、課程排序和學(xué)時分配,還規(guī)定各類各科課程的學(xué)習(xí)目標(biāo)、學(xué)習(xí)內(nèi)容和學(xué)習(xí)要求等,其合理與否將直接影響到所培養(yǎng)人才的質(zhì)量,關(guān)系到學(xué)生知識面的寬度、深度、動手實踐和研究能力的高低,同時也已經(jīng)成為了影響大學(xué)生就業(yè)的主要因素之一。因此,課程結(jié)構(gòu)和課程內(nèi)容的合理設(shè)置尤為重要。
課程相關(guān)性分析可定量描述課程之間的相關(guān)性,可根據(jù)相關(guān)系數(shù)值的大小確定課程間關(guān)系的緊密程度,然后從順序性、整體性、關(guān)聯(lián)性和連續(xù)性四個方面為優(yōu)化課程設(shè)置提供參考信息,優(yōu)化課程結(jié)構(gòu)和課程內(nèi)容。近年來,國內(nèi)外教育工作研究人員開展了大量的課程相關(guān)性方面的研究,國內(nèi)外多所著名高校已將課程相關(guān)性研究成果作為課程設(shè)置的基本依據(jù)。
目前課程相關(guān)性分析研究所采用的方法均基于數(shù)據(jù)分析,其方法主要包括傳統(tǒng)數(shù)據(jù)分析法和數(shù)據(jù)挖掘分析法兩種,而兩者又有著本質(zhì)的區(qū)別。在探索數(shù)據(jù)關(guān)系時,傳統(tǒng)的分析方法一般是基于驗證的方法,即用戶首先對數(shù)據(jù)之間的關(guān)系做出一定的假設(shè),然后通過數(shù)據(jù)分析來驗證假設(shè)是否正確來得出相應(yīng)結(jié)論,其分析過程是基于假設(shè)驅(qū)動的演繹型分析;數(shù)據(jù)挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型,數(shù)據(jù)挖掘在本質(zhì)上是一個完全基于發(fā)現(xiàn)驅(qū)動的歸納型分析過程。
本文對課程相關(guān)性分析中的數(shù)據(jù)挖掘過程及基于數(shù)據(jù)挖掘技術(shù)的課程相關(guān)分析方法進(jìn)行介紹,以期為我國高校課程的優(yōu)化設(shè)置研究提供理論指導(dǎo)和方法借鑒。
二、數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining,DM)又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實際應(yīng)用數(shù)據(jù)中,通過使用成熟的數(shù)據(jù)挖掘模型,提取出隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識,得到數(shù)據(jù)中反映出來的數(shù)據(jù)內(nèi)在的關(guān)系,從而進(jìn)一步應(yīng)用到具體的數(shù)據(jù)分析研究中去。數(shù)據(jù)挖掘得到的信息具有先前未知、有效和實用三個特征。
目前,數(shù)據(jù)挖掘技術(shù)的已被應(yīng)用于關(guān)聯(lián)分析(Association Analysis)、概念/類別描述(Concept/Class Description)、分類與估值(Classification and Estimation)、聚類分析(Clustering Analysis)、時間序列分析(Time-Series Analysis)、偏差分析(Deviation Analysis)、孤立點分析(Outlier Analysis)等方面,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,可能還會繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能。課程相關(guān)性分析為其關(guān)聯(lián)分析功能中的一部分,所采用的分析方法主要有相關(guān)分析法、典型相關(guān)分析法和關(guān)聯(lián)規(guī)則分析法等。
數(shù)據(jù)挖掘分析過程各步驟之間互相影響、反復(fù)調(diào)整,形成一種螺旋式上升過程,具體分析流程見圖1所示。目前已建立的數(shù)據(jù)挖掘模型有CRISP-DM模型(Cross Industry Standard Process for Data Mining)、ODDM模型(OLE DB for Data Mining)、Oracle9i數(shù)據(jù)挖掘模型等多種,對于課程相關(guān)性分析來說,具有直觀、簡單和可靠等特點的CRISP-DM模型最為適用,其模型見圖2所示。
三、基于數(shù)據(jù)挖掘的課程相關(guān)性分析方法
基于數(shù)據(jù)挖掘的課程相關(guān)性分析方法主要有相關(guān)分析法、典型相關(guān)分析法和關(guān)聯(lián)規(guī)則分析法,三種方法各具優(yōu)缺點,互不可取代。
1.相關(guān)分析法
相關(guān)分析法又稱單因子相關(guān)分析法,主要用于研究兩個變量因子間的相關(guān)關(guān)系。作為教育信息多元統(tǒng)計分析方法的一種,相關(guān)分析法主要用于測定現(xiàn)象之間相關(guān)關(guān)系的規(guī)律性,據(jù)此進(jìn)行預(yù)測和控制。將其用于課程相關(guān)性的探討研究,可直接量化兩門課程間的相關(guān)性,分析過程簡單、快捷,顯示方式直觀,數(shù)據(jù)可信度高。
相關(guān)分析法在課程相關(guān)性分析研究中應(yīng)用,主要有以下幾個步驟:
闡明了主成分分析在數(shù)據(jù)降維的同時能夠保持原始數(shù)據(jù)的絕大部分能量信息沒有損失,是一種最優(yōu)的數(shù)據(jù)描述和表示方法。通過對主成份分析理論基礎(chǔ)的講述,讓學(xué)生不僅掌握了主成分分析的內(nèi)容和作用,搞清楚了相關(guān)的計算過程,這也對學(xué)生更好地實現(xiàn)主成分分析的程序設(shè)計和應(yīng)用情況有了清楚的認(rèn)識。對于教材中一些簡單的內(nèi)容,比如數(shù)據(jù)分箱、K近鄰分類等,我們要求學(xué)生自己理解,然后隨機(jī)抽取學(xué)生為其他同學(xué)講授,這樣可以提高學(xué)生的主動性,加深學(xué)生的理解。對于一些簡單的問題,如K-means聚類的類別中心為各類樣本的均值,我們可以讓學(xué)生自己證明,提高他們的理解力。在講授其他一些內(nèi)容時,比如說聚類分析,我們可以將聚類分析的各個過程用圖的形式表示出來,用空間中的點表示聚類樣本,這樣就大大增強(qiáng)了學(xué)生的理解。
我們在教學(xué)的過程中,也比較比較注重案例教學(xué)。例如,在講授神經(jīng)網(wǎng)絡(luò)時,我們可以用上海證券交易所中股市中股票隨時間變化的數(shù)據(jù)為例,讓學(xué)生討論如何應(yīng)用神經(jīng)網(wǎng)絡(luò)對股票價格進(jìn)行預(yù)測。人工神經(jīng)網(wǎng)絡(luò)是一種模仿自然界動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型,能夠較好地處理具有一定復(fù)雜性的數(shù)據(jù),在預(yù)測、擬合等方面取得了很好的應(yīng)用效果。讓學(xué)生采用神經(jīng)網(wǎng)絡(luò)進(jìn)行實際數(shù)據(jù)分析和處理,可以增強(qiáng)他們學(xué)習(xí)的積極性,更主動地投入到學(xué)習(xí)中去。我們也要求他們使用回歸分析的方法對股票價格進(jìn)行預(yù)測,然后和神經(jīng)網(wǎng)絡(luò)預(yù)測的結(jié)果進(jìn)行比較。通過這個過程,可以使學(xué)生們不但了解了神經(jīng)網(wǎng)絡(luò)與回歸分析算法的異同,加深他們對神經(jīng)網(wǎng)絡(luò)的認(rèn)識。
加強(qiáng)實驗教學(xué),增強(qiáng)學(xué)生動手能力
信息與計算科學(xué)專業(yè)是以信息領(lǐng)域為背景,數(shù)學(xué)與信息、管理相結(jié)合的交叉學(xué)科專業(yè)。該專業(yè)培養(yǎng)的學(xué)生具有良好的數(shù)學(xué)基礎(chǔ),能熟練地使用計算機(jī),初步具備在信息與計算科學(xué)領(lǐng)域的某個方向上從事科學(xué)研究,解決實際問題,設(shè)計開發(fā)有關(guān)軟件的能力。畢業(yè)生適合到企事業(yè)單位、高科技部門、高等院校、行政管理和經(jīng)濟(jì)管理部門,從事科研、教學(xué)和計算機(jī)應(yīng)用軟件的開發(fā)和管理工作,也可以繼續(xù)攻讀信息與計算科學(xué)及相關(guān)學(xué)科的碩士學(xué)位。從信息與計算科學(xué)專業(yè)的培養(yǎng)目標(biāo)可以看出信息與計算科學(xué)專業(yè)的本科生不但需要掌握理論知識,還需要具有將所學(xué)知識用來解決實際問題的能力。數(shù)據(jù)挖掘作為一門應(yīng)用性較強(qiáng)的課程,需要學(xué)生能夠運用數(shù)據(jù)挖掘知識分析和解決實際問題,要求學(xué)生能夠熟練掌握數(shù)據(jù)挖掘的程序設(shè)計,以便在將來的就業(yè)中具有更好的適應(yīng)性,因此實驗環(huán)節(jié)的教學(xué)有著其必要性?;谶@些原因,我們在這門課中引入實驗環(huán)節(jié),并將其納入考核要求。我們實驗所用的基本軟件是SAS統(tǒng)計分析軟件。SAS軟件是一個集統(tǒng)計分析、報表圖形、信息系統(tǒng)開發(fā)和大型數(shù)據(jù)庫管理等多種強(qiáng)大功能為一體的大型軟件系統(tǒng),是目前國際上主流的統(tǒng)計分析軟件之一。我們信息專業(yè)在大三時開設(shè)這門課程,之前已經(jīng)學(xué)過C語言和JAVA等程序設(shè)計方法,有了一定的編程基礎(chǔ),因此學(xué)習(xí)使用SAS軟件并不是特別困難。而且,在SAS軟件中,系統(tǒng)自帶了許多數(shù)據(jù)挖掘函數(shù),這方便了同學(xué)們的使用。我們在平時的學(xué)習(xí)中,將一些SAS軟件的基本程序設(shè)計基礎(chǔ)知識先發(fā)給同學(xué)們,讓他們利用課后時間自己在個人電腦上進(jìn)行熟悉,從而使得他們熟悉基本SAS程序設(shè)計方法,這樣可以在實驗課上直接運用SAS軟件進(jìn)行數(shù)據(jù)挖掘程序的編寫。在實驗課上,我們主要將要實驗的內(nèi)容和相關(guān)數(shù)據(jù)資料提供給同學(xué),要求同學(xué)自己用數(shù)據(jù)挖掘的知識和SAS軟件進(jìn)行編程實現(xiàn),并寫出實驗分析和小結(jié)。另外,在實驗中,我們也要求學(xué)生盡可能將一些實驗結(jié)果用圖表的形式如崖底碎石圖等表示出來,以利于進(jìn)一步分析。對于少部分學(xué)有余力的同學(xué),我們也引導(dǎo)他們自編相關(guān)的程序。比如說在SAS軟件中進(jìn)行K-均值聚類用fastclus這個函數(shù)就可以了,但是學(xué)生對程序具體實現(xiàn)過程可能不是很清楚。如果學(xué)生能夠?qū)⒊绦騅-均值聚類詳細(xì)程序步驟自己編寫出來,就可以表明學(xué)生對所K-均值聚類算法也有了較清楚的認(rèn)識。另外,對于屬于數(shù)學(xué)建模協(xié)會的同學(xué),我們也引導(dǎo)他們將數(shù)據(jù)挖掘的知識和數(shù)學(xué)建模中某些問題相結(jié)合起來,對于以往出現(xiàn)的一些可以利用數(shù)據(jù)挖掘知識分析的問題讓他們利用相關(guān)的數(shù)據(jù)挖掘知識對其進(jìn)行分析和求解,通過這樣的方式,可以這樣拓展這些同學(xué)的思路,也為數(shù)學(xué)建模培養(yǎng)了人才。
靈活的課后作業(yè)形式,提高學(xué)生的綜合能力
對于我們講授的課題,每學(xué)完一個算法,我們要求學(xué)生在網(wǎng)絡(luò)上搜索該方法的運用領(lǐng)域和技術(shù)要點,加深對該算法的理解。然后,我們讓每一個同學(xué)自己挑選一個該算法可以解決的問題,在網(wǎng)上搜集相關(guān)數(shù)據(jù),寫出實現(xiàn)程序,并寫出相應(yīng)的小論文。這也可以鍛煉學(xué)生的搜索、整理和分析處理數(shù)據(jù)的能力。對于課程中的某些案例,我們要求學(xué)生進(jìn)行重新總結(jié)思考。比如在運用主成分分析進(jìn)行入侵檢測的這個案例,案例中的主要指標(biāo)是運用兩類樣本協(xié)方差特征根的差異進(jìn)行分析和比較。我們讓學(xué)生思考該處理方法的優(yōu)缺點,同時讓學(xué)生思考有沒有其他的思路,比如按照模式分類的思想來實現(xiàn)。即首先主成份分析進(jìn)行降維,然后運用K-近鄰分類方法進(jìn)行分類。另外,也讓學(xué)生思考有沒有其他的思路,比如特征降維是否可以采用其他方法,如線性鑒別分析等;而分類方法是否可以采用BP神經(jīng)網(wǎng)絡(luò)等。進(jìn)一步,我們可以讓學(xué)生比較主成份分析和線性鑒別分析有什么異同之處;K-近鄰分類和BP神經(jīng)網(wǎng)絡(luò)運用于分類時執(zhí)行過程有什么異同之處。讓學(xué)生對這些算法的理解更加透徹。另外,在課本的作業(yè)之外,我們也會自編一些題目,讓學(xué)生自己進(jìn)行思考分析。比如,對于圖1雙圈圖,我們可以設(shè)置這樣的問題:將圖形的描點數(shù)據(jù)給大家,要求他們繪出圖形,說明形狀。然后要求他們運用K-means聚類聚為兩類,并且根據(jù)聚類的結(jié)果畫出圖形。然后將所得的圖形跟原始圖形進(jìn)行比較,說明差異之處。通過這樣的問題,既可以使得學(xué)生對數(shù)據(jù)整理、畫圖等有一定的掌握,還使得他們熟悉了K-means聚類算法的編程過程。另外,使得他們不僅了解了K-means聚類算法的優(yōu)點,也使得他們理解K-means聚類算法作為一種線性方法的局限之處。四、小結(jié)綜上所述,“數(shù)據(jù)挖掘”課的教學(xué)既要注重基本理論與方法的講解,使得學(xué)生能夠掌握數(shù)據(jù)挖掘的基本理論和知識;又要培養(yǎng)學(xué)生的思考和分析能力,提高他們運用數(shù)據(jù)挖掘的相關(guān)程序解決實際問題的能力。從而使得所學(xué)的知識能夠真正運用于實踐中,提高學(xué)生的綜合能力。本文嘗試對本科數(shù)據(jù)挖掘教學(xué)做一些總結(jié),如何更好地提高《數(shù)據(jù)挖掘》這門課的教學(xué)質(zhì)量,期待更多的同行共同探討。
作者:徐春明單位:鹽城師范學(xué)院數(shù)學(xué)科學(xué)學(xué)院
Data Mining and Analysis for the Personalized Teaching of Multimedia Technology Course
YANG Nan-yue
(Industrial Training Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China)
Abstract: Since personalized teaching has been implemented in multimedia technology teaching in the past five years, a lot of teaching data accumulated from multimedia technology online learning platform. The article introduced data mining and analysis technology to process these data in order to obtain support and decision-making reference for the improvement of the quality of personalized teaching. First, the snowflake model of courses selection for data warehouse was built. Then the Apriori algorithm was used to dig out the inner link between the students’ media technology achievements and the final grade. And then cluster analysis with k-means algorithm on all students’ scores was conducted. Finally, the calculated results were visualized and analyzed. Practice proved that data mining and analysis technology is a useful tool for quantitative analysis in the teaching.
Key words: data mining; snowflake model; association rule; cluster analysis; personalized teaching
我校的多媒體技術(shù)公選課面向全校各年級各專業(yè)本科生開課,因此選修本課程的學(xué)生來源較復(fù)雜,其計算機(jī)基礎(chǔ)參差不齊。過往統(tǒng)一步調(diào)的授課模式滿足不了不同層次學(xué)生的需求,所以從2011年開始,本門課程實施教學(xué)改革,以多媒體技術(shù)在線學(xué)習(xí)平臺為基礎(chǔ),結(jié)合課堂授課開展個性化教學(xué),把多媒體技術(shù)包含的四大媒體技術(shù)課程:圖像處理、音頻處理、視頻處理和動畫制作做成講座的形式,每一門課程分別包含兩到三次的講座,學(xué)生根據(jù)自己的情況選聽選學(xué)。每門媒體技術(shù)不同難易度的學(xué)習(xí)資料都放在學(xué)習(xí)平臺里,學(xué)生可以自由選擇學(xué)習(xí)資源,并通過網(wǎng)絡(luò)或課堂與同學(xué)和老師進(jìn)行學(xué)習(xí)交流??己朔绞綖槊恳婚T課程最后一次講座講完后在學(xué)習(xí)平臺上進(jìn)行隨堂考試,要求每位學(xué)生至少選考其中三門。本門課程期末考試也在學(xué)習(xí)平臺上進(jìn)行,要求全體學(xué)生都必須參加。本教改實施五年來,學(xué)生反應(yīng)良好,同時多媒體技術(shù)學(xué)習(xí)平臺網(wǎng)站上存在著大量學(xué)生成績和教師教學(xué)及管理過程中的相關(guān)數(shù)據(jù),那么這些數(shù)據(jù)之間存在著怎樣的聯(lián)系,是否蘊藏著教與學(xué)之間的知識和規(guī)律?由于數(shù)據(jù)挖掘技術(shù)能夠發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的潛在聯(lián)系和規(guī)則,從而預(yù)測未來的發(fā)展趨勢[1],因此我們把該技術(shù)引入學(xué)習(xí)平臺中的信息資源管理系統(tǒng),把大量積累的教學(xué)基礎(chǔ)數(shù)據(jù)建立數(shù)據(jù)倉庫[2],在這基礎(chǔ)上運用數(shù)據(jù)挖掘手段從中快速準(zhǔn)確地提取出重要的信息和有價值的知識,找出影響學(xué)習(xí)成績的因素,為進(jìn)一步改善個性化教學(xué)的教學(xué)質(zhì)量提供數(shù)據(jù)支持和決策參考。
1 數(shù)據(jù)倉庫多維數(shù)據(jù)模型的建立
數(shù)據(jù)倉庫的邏輯數(shù)據(jù)模型是多維數(shù)據(jù)模型。目前使用的多維數(shù)據(jù)模型主要有星型模型和雪花模型。一個典型的星型模式包括一個大型的事實表和一組邏輯上圍繞這個事實表的維度表[3]。雪花模型是對星型模型的擴(kuò)展,將星型模型的維度表進(jìn)一步層次化,原來的各維度表被擴(kuò)展為小的事實表,形成一些局部的層次區(qū)域[3-4]。建立本課程數(shù)據(jù)倉庫時,為了減少數(shù)據(jù)冗余,改善查詢性能我們采用雪花模型結(jié)構(gòu),如圖1所示。建立以學(xué)生選課為中心的選課事實表,三個主維度表“學(xué)生表”、“成績表”和“時間表”分別通過“學(xué)生鍵”、“成績鍵”和“時間鍵”與事實表直接關(guān)聯(lián)。其中,主維度表中的“學(xué)生表”和“成績表”都有各自的二級維度表,與事實表間接關(guān)聯(lián)[5]。
2 采用Apriori算法的關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則用于揭示數(shù)據(jù)與數(shù)據(jù)之間未知的相互依賴關(guān)系,即在給定的一個事物數(shù)據(jù)庫D,在基于支持度-置信度框架中,發(fā)現(xiàn)數(shù)據(jù)與項目之間大量有趣的相關(guān)聯(lián)系,生成所有的支持度和可信度分別高于用戶給定的最小支持度(min_sup)和最小可信度(min_conf)的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘算法歸結(jié)為下面兩個問題:(1)找到所有支持度大于等于最小支持度(min_sup)的項目集(Item Sets),即頻繁項目集(Frequent Item Sets)。(2)使用步驟(1)找到的頻繁項目集,產(chǎn)生期望的規(guī)則。兩步中,第(2)步是在第(1)步的基礎(chǔ)上進(jìn)行的,工作量非常小,因此挖掘的重點在步驟(1)上,即查找數(shù)據(jù)庫中的所有頻繁項目集和它的支持度[4]。本課題對多媒體技術(shù)課程學(xué)習(xí)平臺中所有考試成績進(jìn)行關(guān)聯(lián)規(guī)則挖掘,采用Apriori算法查找頻繁項目集。
Apriori算法通過逐層迭代來找出所有的頻繁項目集L。用戶需要輸入事物數(shù)據(jù)庫D和最小支持度閥值min_sup。實現(xiàn)過程為:
1)單次掃描數(shù)據(jù)庫D計算出各個1項集的支持度,得到頻繁1項集構(gòu)成的集合L1。
2)連接:為了產(chǎn)生頻繁K項集構(gòu)成的集合,通過連接運算預(yù)先生成一個潛在頻繁k項集的集合Ck。
3)剪枝:利用Apriori算法“任何非頻繁的(k-1)項集必定不是頻繁k項集的子集”的性質(zhì),從Ck中刪除掉含有非頻繁子集的那些潛在k項集。
4)再次掃描數(shù)據(jù)庫D,計算Ck中各個項集的支持度。
5)剔除Ck中不滿足最小支持度的項集,得到由頻繁k項集構(gòu)成的集合Lk。
Apriori算法如下:
[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠?;k++) do begin(3)Ck=apriori_gen(Lk-1); //新的潛在頻繁項集(4)for all transactions t∈D do begin(5) Ct=subset(Ck,t);//t中包含的潛在頻繁項集(6)for all candidates c∈Ct do begin(7) c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]
求出頻繁項集L后,1)對于L中的每一個頻繁項目集l,產(chǎn)生l的所有非空子集。2)對于l的每一個非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],則輸出規(guī)則:SL-S[4]。
本課題對近五年選修多媒體技術(shù)的學(xué)生所有成績數(shù)據(jù)進(jìn)行清洗,填補空缺值,去噪,類型轉(zhuǎn)換,集成等處理后放入數(shù)據(jù)倉庫中,系統(tǒng)采用Apriori算法找出所有的頻繁項集。為了便于進(jìn)行關(guān)聯(lián)規(guī)則的挖掘,對成績數(shù)據(jù)進(jìn)行離散化處理,轉(zhuǎn)變成標(biāo)稱型變量[5]。成績score(簡化為“s”)在85-100區(qū)間的表示“優(yōu)秀”,標(biāo)記為“1”,在70-84區(qū)間的表示“中等”,標(biāo)記為“2”,在60-70區(qū)間的表示“合格”,標(biāo)記為“3”。多媒體技術(shù)每門媒體技術(shù)課程:圖像處理、音頻處理、視頻處理、動畫制作和最后的期末考試分別用A、B、C、D、E表示。學(xué)生的學(xué)號用StudentID表示,那么每個學(xué)生選修的N門課和最后期末考試的成績可以表示為{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范圍是{1,2,3}。例如{ 2011204543021,A3,B1,D3,E3}表示學(xué)號為2011204543021的學(xué)生,選修了圖像處理,音頻處理和動畫制作這三門媒體技術(shù),其中圖像處理成績?yōu)楹细?,音頻處理成績?yōu)閮?yōu)秀,動畫制作成績?yōu)楹细?,期末考試成績?yōu)楹细?,該名學(xué)生沒有選修視頻處理,故沒有這門科目的成績。
設(shè)定最小支持度閥值min_sup為3%,最小置信度閥值min_conf為70%,系統(tǒng)采用Apriori算法進(jìn)行數(shù)據(jù)挖掘,得到滿足最小置信度閥值的規(guī)則和相應(yīng)的置信度如表1。
挖掘結(jié)果分析:表1的關(guān)聯(lián)規(guī)則體現(xiàn)學(xué)生選修的媒體技術(shù)課程種類、科目數(shù)量與期末考試成績之間的相互關(guān)系??梢钥吹狡谀┛荚嚦煽儗儆谥械龋‥2)或合格(E3)級別的,學(xué)生全選四門媒體技術(shù)比只選學(xué)三門的置信度高,即選課數(shù)量多的較容易及格或獲得中等的期末成績。另外,在選課種類方面,選B這門課,即選音頻處理的學(xué)生比較多,是一個概率比較高的事件,可能這門課內(nèi)容比較少和易掌握,因此選學(xué)選考的學(xué)生就多。但這門課的成績對期末考試成績影響不明顯,說明教師這門課出的考題區(qū)分度低,沒能反映出學(xué)生的水平層次。在最小支持度閥值min_sup為3%的情況下,選A(圖像處理),C(視頻處理)和D(動畫制作)這幾門課并獲得優(yōu)秀成績(A1,C1,D1)的很少,即小概率事件被過濾掉了,沒能挖掘出它們與期末成績之間的關(guān)聯(lián)性。但這幾門課程成績中等或合格與期末成績存在內(nèi)在關(guān)系,也就是說如果這幾門課成績都是中等的,期末考試成績大部分都為中等,一小部分可以達(dá)到優(yōu)秀。如果這幾門課成績都是合格,期末考試成績就是合格。說明這幾門課程的考題比較真實反映出學(xué)生掌握技能的實際水平,致使期末綜合性的考試成績與學(xué)生平時掌握程度相符合。這也意味著個性化教學(xué)具有一定的成效。
本課題對近五年的學(xué)生多媒體技術(shù)每科成績與期末成績進(jìn)行聚類分析,把學(xué)生劃分到若干不同的類中,分析各個類的特征,從而考察實施個性化教學(xué)后的效果。設(shè)定85分,75分和65分為三個初始的聚類中心,對學(xué)生的所有成績進(jìn)行聚類分析,找出同一類別學(xué)生的學(xué)號,以此為索引,查找到該類中各個學(xué)生的專業(yè)與年級,繪制出餅狀圖,再繪制出該類學(xué)生所選各門媒體技術(shù)的平均分柱狀圖,通過這幾個圖表考察不同專業(yè)不同年級學(xué)生在本門課程優(yōu)秀中等合格若干成績區(qū)間的分布情況,從而檢查實施個性化教學(xué)的效果,為今后的改進(jìn)方案提供參考。例如調(diào)整后得到的最終聚類中心為82分的學(xué)生,各門媒體技術(shù)的平均分和專業(yè)、年級分布如圖3~圖5所示。
從上面幾個圖可以看出,成績?yōu)閮?yōu)秀的學(xué)生主要來自美術(shù)、計算機(jī)和電信這幾個專業(yè),大三、大四的學(xué)生比較多。分析其中的原因,主要是美術(shù)學(xué)院很多專業(yè)課需要用二維、三維圖像軟件或視頻軟件進(jìn)行制作和處理,他們對這門課程已經(jīng)有一定的基礎(chǔ),所以學(xué)起來比較輕松,也容易取得高分。而計算機(jī)和電信專業(yè)中高年級的學(xué)生學(xué)習(xí)和使用軟件的能力比較強(qiáng),因此掌握多媒體技術(shù)各個媒體軟件較其他專業(yè)學(xué)生快,并且能夠靈活運用,因而較易取得比較優(yōu)異的成績。
最終聚類中心為64分的學(xué)生,各門媒體技術(shù)的平均分和專業(yè)、年級分布如圖6~圖8所示。
從圖中可以看出,這個類別的學(xué)生主要來自文科方向的專業(yè),年級分布差異不大,大四所占百分比稍微比其他三個年級略高,有可能是學(xué)生們最后一年為了修滿選修課學(xué)分而選了這門課,目的是混個及格拿到學(xué)分,因此學(xué)習(xí)積極性和學(xué)習(xí)態(tài)度不佳,導(dǎo)致大部分成績徘徊在60來分。還有一種可能性是大四學(xué)生畢業(yè)在即,需要寫簡歷找工作,做自我介紹作品等,覺得掌握一些多媒體技術(shù)可以作為輔助工具因此選了本門課程??上в行W(xué)習(xí)時間明顯不如前三年充足,加上文科方向的同學(xué)計算機(jī)基礎(chǔ)和軟件學(xué)習(xí)能力較理工類學(xué)生薄弱,因此成績不太理想。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù) 高等學(xué)校 教學(xué) 應(yīng)用研究
中圖分類號:G421 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2013)05(a)-0201-01
21世紀(jì)是經(jīng)濟(jì)和社會不斷發(fā)展,科技水平不斷提高的信息化時代,從而促進(jìn)了整個社會的信息總量的增加,提高了人們利用信息技術(shù)尋找數(shù)據(jù)的能力??墒怯捎诜e累的數(shù)據(jù)不斷增多,可是在對數(shù)據(jù)進(jìn)行挖掘的過程中對所隱藏的知識知知曉的方法比較少,從而就出現(xiàn)了數(shù)據(jù)大爆炸,而知識上出現(xiàn)了嚴(yán)重的匱乏這樣的現(xiàn)象。
隨著人們對數(shù)據(jù)庫技術(shù)上的不斷掌握和成熟,以及在數(shù)據(jù)應(yīng)用上也得到相應(yīng)的普及,人們積累的數(shù)據(jù)資料很多,人們累積了比較多的數(shù)據(jù)資料,可是卻沒有充分的發(fā)揮與利用數(shù)據(jù)庫里蘊含的豐富的知識和信息。由于在現(xiàn)代社會里數(shù)據(jù)庫的量在以幾何狀態(tài)不斷的增長著,而從數(shù)據(jù)的中,人們要在挑選技術(shù)的需求下對信息去粗存精、去偽存真愈發(fā)強(qiáng)烈,日益期望計算機(jī)系統(tǒng)能夠提供更高層次的數(shù)據(jù)分析,從而有效的幫助領(lǐng)導(dǎo)者注意到數(shù)據(jù)之間容易被戶數(shù)可是又很重要的因素,在決策上得到了更好的支持效果。同時為了跟這項要求呈現(xiàn)迎合現(xiàn)象,應(yīng)挖掘數(shù)據(jù)庫的技術(shù)和發(fā)現(xiàn)數(shù)據(jù)庫中的知識KDD,才能順應(yīng)時代的發(fā)展,得到相應(yīng)的推廣和研發(fā)。
1 數(shù)據(jù)挖掘技術(shù)的具體含義和特點
數(shù)據(jù)挖掘技術(shù)的含義主要指的是從一些不完全、有噪聲、模糊的、大量的、隨機(jī)的數(shù)據(jù)當(dāng)中,對其隱藏在數(shù)據(jù)里面的信息進(jìn)行有效的提取,可是又不被人們事先知道,然而又十分有用的信息與知識的過程。通過比較分析數(shù)據(jù)挖掘的目標(biāo),人們可以采用一些手段和措施進(jìn)行挖掘,其中包含了人工智能、集合論或者統(tǒng)計學(xué)等,再運用相對應(yīng)的數(shù)據(jù)挖掘算法進(jìn)行分析數(shù)據(jù)的基礎(chǔ),在通過可視化的工具來描述奪取的模式和表達(dá)其規(guī)則。
對于數(shù)據(jù)挖掘技術(shù)而言,其通常具有以下三個特點。首先數(shù)據(jù)挖掘技術(shù)能夠有效的發(fā)現(xiàn)能夠表現(xiàn)系統(tǒng)局部特征和規(guī)律的模型;其次數(shù)據(jù)挖掘技術(shù)可以自動的對趨勢進(jìn)行有效的預(yù)測,從而發(fā)掘新的知識;最后數(shù)據(jù)挖掘技術(shù)能夠便捷的獲取規(guī)則,并進(jìn)行實時的更新。數(shù)據(jù)挖掘方法是一種開放性的思維方法,它能夠及時的使用和借鑒在模型法中的多項成果,例如神經(jīng)網(wǎng)絡(luò)、粗糙集、樸素貝葉斯算法等方法,這些方法無一例外都被數(shù)據(jù)挖掘方法所采用。
2 數(shù)據(jù)挖掘技術(shù)的目的和挖掘的過程
首先,對于數(shù)據(jù)挖掘技術(shù)而言,其希望能夠發(fā)現(xiàn)以下幾方面的知識的知識:一方面是能夠有效的表現(xiàn)同類事物的共同性質(zhì)的泛化知識;另一方面是期望能夠發(fā)現(xiàn)可以表現(xiàn)一種事物與其他事物之間的依賴或者關(guān)聯(lián)的關(guān)聯(lián)型知識;第三是期望能夠發(fā)現(xiàn)可以詳細(xì)的展現(xiàn)同類事物的共同性質(zhì)的特征型知識,以及在不同事物之間存在的區(qū)別的差異型知識;最后采用數(shù)據(jù)挖掘技術(shù)還期望能夠獲得通過對歷史和當(dāng)前數(shù)據(jù)的分析,能夠預(yù)測未來的預(yù)測型知識。
數(shù)據(jù)挖掘技術(shù)挖掘的過程是從大型庫中挖掘出未知的、有效的并且具有實用價值的信息,再通過相關(guān)信息的綜合比較來做出具體決策。對其而言,通??梢詫⑵浞殖蓽?zhǔn)備、數(shù)據(jù)挖掘、評價階段以及運用這四個階段。
3 數(shù)據(jù)挖掘技術(shù)在高等學(xué)校教學(xué)中的具體應(yīng)用
3.1 了解高校學(xué)生的基本信息
采用數(shù)據(jù)挖掘技術(shù),不僅可以實時的分析,跟蹤和了解學(xué)生的出勤狀況,而且能夠針對學(xué)生的具體年齡和個人情況進(jìn)行有效的分析,在綜合的掌握和了解還可對學(xué)生的結(jié)構(gòu)和組合的基礎(chǔ)上,來為其安排合理的課程,從而為科學(xué)合理的評價學(xué)生的綜合素質(zhì)情況提供良好的理論和數(shù)據(jù)依據(jù)。可以采用可視化的技術(shù)來對學(xué)生的相關(guān)數(shù)據(jù)進(jìn)行挖掘,或者給教師提供圖表和曲線圖,使教師能夠充分合理的利用學(xué)生的問題資源,來科學(xué)合理的提高教學(xué)質(zhì)量。在另一方面,數(shù)據(jù)挖掘還能夠應(yīng)用于網(wǎng)上的考試系統(tǒng),挖掘考生的成績情況,從而為教師在之后的教學(xué)中更好的教導(dǎo)學(xué)生提供重要的幫助。
3.2 掌握學(xué)生的學(xué)習(xí)特征
所謂的學(xué)生學(xué)習(xí)特征一般包含兩方面的內(nèi)容:一方面是學(xué)生進(jìn)行學(xué)習(xí)上準(zhǔn)備,另一方面則是學(xué)生的學(xué)習(xí)風(fēng)格。學(xué)習(xí)準(zhǔn)備一般包含初始能力與一般特征。學(xué)生的初始能力是指學(xué)生在學(xué)習(xí)某一特定的課程內(nèi)容時,學(xué)生已經(jīng)掌握的相關(guān)知識和技能,還有學(xué)生對這些學(xué)習(xí)內(nèi)容的具體認(rèn)識和態(tài)度。而學(xué)生的一般特征則是指學(xué)生在學(xué)習(xí)過程中能夠影響學(xué)生的心理、生理和社會的特點,包括年齡、性別、年級、認(rèn)知成熟度、智力才能、學(xué)習(xí)動機(jī)、個人對學(xué)習(xí)的期望、生活經(jīng)驗、文化、社會、經(jīng)濟(jì)等背景因素。
3.3 教師要科學(xué)合理的設(shè)置課程
學(xué)生學(xué)校學(xué)習(xí)的過程中,其對課程的學(xué)習(xí)一般都是循序漸進(jìn)的,并且相關(guān)的課程之間都有一定的聯(lián)系和前后順序關(guān)系。因此學(xué)生在學(xué)習(xí)一門比較難的課程之前一定會先選擇一些基礎(chǔ)課程來做好充足的準(zhǔn)備。對于學(xué)生學(xué)習(xí)而言,不學(xué)好基礎(chǔ)課程,一定會對之后的課程學(xué)習(xí)帶來比較大的影響。此外,由于同一年級的學(xué)生,班級不同,因此授課教師和班級文化也會產(chǎn)生比較大的差異,這就會影響到學(xué)生的總體成績。因此合理科學(xué)的利用學(xué)校教學(xué)數(shù)據(jù)庫中存放的歷屆學(xué)生各門學(xué)科的考試成績,再在綜合數(shù)據(jù)挖掘技術(shù)中對關(guān)聯(lián)分析和時間序列分析的功能基礎(chǔ)上,從這些海量的數(shù)據(jù)中探尋出對教師教學(xué)有用的信息,總結(jié)出一些具有價值的規(guī)則與信息,從而使教師能夠找到影響學(xué)生成績的具體原因,在此基礎(chǔ)上對課程設(shè)置進(jìn)行科學(xué)的挑選和合理的安排。
4 結(jié)語
總而言之,隨著科學(xué)技術(shù)的不斷發(fā)展和信息量的海量增加,依靠傳統(tǒng)方法很難在規(guī)模龐大的數(shù)據(jù)中找到科學(xué)決策的依據(jù)。因此這就需要我們借助數(shù)據(jù)挖掘技術(shù)去尋找蘊藏在數(shù)據(jù)庫中的規(guī)律,從而為科學(xué)合理的決策提供有力的支持。數(shù)據(jù)挖掘技術(shù),作為一門輔助工具,永遠(yuǎn)無法動搖教師在提高學(xué)生成績的地位,可是它能夠為教師的決策提供科學(xué)的依據(jù),從而為傳統(tǒng)教學(xué)中很難獲取或者不能獲取的模型提供了可能。
參考文獻(xiàn)
[1] 惠向暉,王亞偉,蘇克勤,等.淺談數(shù)據(jù)挖掘技術(shù)及其在高等學(xué)校教學(xué)中的應(yīng)用[J].北計算機(jī)科學(xué),2010(11):41-45.
關(guān)鍵詞:學(xué)校教學(xué);數(shù)據(jù)挖掘技術(shù);應(yīng)用
中圖分類號:G632文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2012)17-4177-03
1數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘始于上世紀(jì)90年代,是一門發(fā)展速度較快的交叉學(xué)科,數(shù)據(jù)挖掘技術(shù)包括人工智能、神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計、模式識別、數(shù)據(jù)庫、粗糙集等技術(shù)學(xué)科,數(shù)據(jù)挖掘能夠從大量數(shù)據(jù)中挖掘到隱含的、未知的、用戶可能感興趣的、對決策存在潛在價值的知識及規(guī)則,數(shù)據(jù)挖掘過程又稱為知識發(fā)現(xiàn),基本功能主要為分類、估計、預(yù)測、關(guān)聯(lián)分組、聚類、建檔、描述等。數(shù)據(jù)挖掘的對象較多,主要包括數(shù)據(jù)庫、圖像等各種結(jié)構(gòu)化和非結(jié)構(gòu)化的信息、文本等,有時無法直接對其進(jìn)行分析,因此要通過以下步驟進(jìn)行:第一,選擇數(shù)據(jù)。數(shù)據(jù)挖掘過程中所有需要的數(shù)據(jù)來源可能都不相同,可以通過不同的異數(shù)數(shù)據(jù)源來獲取數(shù)據(jù);第二,預(yù)處理。在初始數(shù)據(jù)中,會有一些不符合形式處理或是出現(xiàn)偏差的例外,因此要對這些數(shù)據(jù)進(jìn)行修正和剔除,為后期數(shù)據(jù)處理的正確性奠定基礎(chǔ);第三,變換。將不同數(shù)據(jù)源獲得的數(shù)據(jù)轉(zhuǎn)換為同一種格式,可以利用編碼或是其他一些方式來簡化表示形式;第四,數(shù)據(jù)挖掘。利用數(shù)據(jù)挖掘算法,對變換之后的數(shù)據(jù)進(jìn)行挖掘并產(chǎn)生期望的挖掘結(jié)果;第五,解釋或評價。將數(shù)據(jù)挖掘之后的結(jié)果用適當(dāng)?shù)姆绞揭平唤o用戶。
數(shù)據(jù)挖掘技術(shù)的應(yīng)用十分廣泛,在電信業(yè)、農(nóng)業(yè)、工業(yè)、金融業(yè)等各個領(lǐng)域都得到了廣泛的應(yīng)用。數(shù)據(jù)挖掘方法主要為關(guān)聯(lián)規(guī)則、決策樹、聚類分析以及遺傳算法、神經(jīng)網(wǎng)絡(luò)等,關(guān)聯(lián)規(guī)則和決策樹是使用頻率最多、范圍最廣的兩種方法。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘最先研究的問題之一,也是數(shù)據(jù)挖掘中最成熟、最主要的分析方法之一,能夠揭示出數(shù)據(jù)之間的隱含關(guān)系。關(guān)聯(lián)規(guī)則首先要對數(shù)據(jù)庫中的一組對象進(jìn)行關(guān)系分析,然后通過置信度和支持度來進(jìn)行篩選,最后得出被認(rèn)為具有價值的事實或是規(guī)律,例如購物籃的分析中,通過對銷售數(shù)據(jù)的分析發(fā)現(xiàn)一些客戶的購物習(xí)慣及規(guī)律。利用關(guān)聯(lián)規(guī)則最經(jīng)典的是由R . Agrawal , Hnielinski , Swam等人在1994年提出的Apriori算法,在生成特定關(guān)系候選項目集的基礎(chǔ)之上,對數(shù)據(jù)庫進(jìn)行掃描,并確定候選項目是否滿足要求。
決策樹算法主要用來解決分類問題,通過對數(shù)據(jù)進(jìn)行歸納和學(xué)習(xí),將分類過程在構(gòu)建的一棵樹上進(jìn)行建模,完成后,便能夠應(yīng)用在數(shù)據(jù)庫中的元組得到分類結(jié)果,樹中每一個內(nèi)部節(jié)點都表示了一個屬性值的檢驗,分支便表示檢驗結(jié)果,樹的葉節(jié)點代表類別。
通過上文的分析可知,數(shù)據(jù)挖掘技術(shù)具有以下特點:第一,數(shù)據(jù)處理規(guī)模較大;第二,挖掘出的知識無法預(yù)知;第三,在發(fā)現(xiàn)潛在規(guī)則的基礎(chǔ)上,要維護(hù)并管理規(guī)則;第四,規(guī)則的發(fā)現(xiàn)是在大樣本統(tǒng)計規(guī)律的基礎(chǔ)之上,且當(dāng)置信度達(dá)到某一標(biāo)準(zhǔn)時,便認(rèn)為規(guī)則成立。
2常用的數(shù)據(jù)挖掘技術(shù)
2.1關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是指各個數(shù)據(jù)項之間相互依存的關(guān)系,發(fā)現(xiàn)規(guī)則的任務(wù)為從數(shù)據(jù)庫中發(fā)現(xiàn)一些置信度、支持度大于定閾值的強(qiáng)關(guān)聯(lián)規(guī)則,在大型數(shù)據(jù)庫中,每個字段之間都存在著多種多樣的關(guān)系,且都隱藏在數(shù)據(jù)庫包含的信息中,關(guān)聯(lián)規(guī)則的目的即為找出數(shù)據(jù)項之間隱藏關(guān)系。用來描述關(guān)聯(lián)規(guī)則挖掘問題的數(shù)據(jù)模型為:令I(lǐng)={i1,i2,i3,……,in}為屬性可能取值,也稱為數(shù)據(jù)項集,模型中ik(1≤i≤n)為數(shù)據(jù)項,I中的元素個數(shù)即為數(shù)據(jù)項集的長度,如果長度為n的數(shù)據(jù)項集,便成為n維數(shù)據(jù)項集(n-Item-set)。例如關(guān)聯(lián)規(guī)則的蘊含式為XY,且X,Y包含于1,且X∩Y=ψ,則規(guī)則XY在事務(wù)集合D中成立。一般情況下,用置信度和支持度來描述規(guī)則屬性:置信度指如果D中包括C%的X事務(wù),且同時也包括Y,則C是關(guān)聯(lián)規(guī)則XY的置信度,置信度即為出現(xiàn)了數(shù)據(jù)項集X的事務(wù)中,Y相集同時出現(xiàn)的改了,置信度C%=The number of Transactions(X∩Y)/The number of Transaction(X)。換言之,只要數(shù)據(jù)庫中出現(xiàn)了X,那么Y出現(xiàn)的可能先變?yōu)镃%;支持度指如果D中有S%的事務(wù)既包括數(shù)據(jù)項集X,也包括數(shù)據(jù)項集Y,那么S%即為關(guān)聯(lián)規(guī)則XY的支持度,支持度S%=The number of Transactions(X∩Y)/The number of Transactions(D)。支持度越大,便說明X和Y在數(shù)據(jù)庫中出現(xiàn)的機(jī)會越大。本著發(fā)現(xiàn)有意義關(guān)聯(lián)規(guī)則的原則,需要給出兩個閾值——最小支持度和最小置信度。關(guān)聯(lián)規(guī)則對給定事務(wù)集合D中所有產(chǎn)生滿足最小支持度及最小置信度的關(guān)聯(lián)規(guī)則進(jìn)行挖掘,可將關(guān)聯(lián)規(guī)則挖掘分為兩個子問題:1)根據(jù)最小支持度,找出在數(shù)據(jù)集D中所有出現(xiàn)的頻繁項目集,此為關(guān)聯(lián)規(guī)則挖掘的中心問題,也是衡量關(guān)聯(lián)規(guī)則算法的一項標(biāo)準(zhǔn);2)根據(jù)頻繁項目集以及最小置信度來形成關(guān)聯(lián)規(guī)則。
2.2決策樹算法
決策樹算法是較為常用、直觀、快速的一種分類方法,決策樹算法即創(chuàng)建一個樹狀結(jié)構(gòu),根據(jù)不同層次對結(jié)點進(jìn)行分類,每個節(jié)點都對應(yīng)一個樣本集,根節(jié)點要對應(yīng)整個樣本集,內(nèi)部節(jié)點應(yīng)對應(yīng)一個樣本集,葉節(jié)點對應(yīng)一個類標(biāo)志,然后根據(jù)結(jié)點包含的樣本屬性進(jìn)行測試,并依據(jù)測試結(jié)果,將樣本集進(jìn)行劃分,劃分出兩個或兩個以上的子集,每一個子集生成一個分支,并用測試屬性值來對分值進(jìn)行標(biāo)識,葉節(jié)點包含一個類標(biāo)志,表示與之相對應(yīng)的樣本集類別。常用的決策樹計算方法有:1) ID3算法,此為最著名的一種決策樹算法,采用的是貪心搜索選擇分裂的特征和信息理論;2) C4.5算法,此為ID3算法的改進(jìn),也是基于信息增益比的特征選擇策略以及最小描述長度的剪枝方法的首次提出,增加了缺失數(shù)據(jù)以及對連續(xù)性屬性的處理策略,并對分類規(guī)則的推導(dǎo)方法進(jìn)行提出,對連續(xù)性屬性采用的是安全搜索二分法,對于離散型屬性,采用的是多分法;3) EC4.5算法,此種算法是C4.5的改進(jìn)算法,在效率上較C4.5有一定的提高。除此之外,決策樹算法還包括很多其他算法,在處理不同的數(shù)據(jù)庫數(shù)據(jù)時,要結(jié)合數(shù)據(jù)庫特征來選擇算法。
2.3聚類分析算法
一般情況下,人們對事物進(jìn)行認(rèn)知采用將認(rèn)知對象進(jìn)行分類的方法,分為同一類的事務(wù)一般都具有較多的相似特征,聚類的任務(wù)即在沒有訓(xùn)練數(shù)據(jù)樣本時,根據(jù)對象自身相似性將一組對象劃分成為一系列具有意義的子集。經(jīng)常使用的聚類劃分方法為:K-means算法、PAM算法以及CLARA算法和CLARANS算法等,較為經(jīng)典的聚類分析算法為K-means和擴(kuò)展算法,即將對象D劃分為一組聚類{C1,C2,……Ck},始終K是要得到的聚類個數(shù),此種算法將一個對象最多分為一個聚類,每一個聚類都是全體對象的子集之一。聚類指本著找到一組聚類中心及隸屬矩陣的目的,讓目標(biāo)函數(shù)值趨近于最小,因此為了能夠解決函數(shù)值最小的問題,可以采用K-means中的爬山算法,即首先隨機(jī)選擇K個初始聚類中心,將每一個對象都分配給離它的據(jù)點,得到一組聚類,然后對當(dāng)前每一個聚類中心進(jìn)行計算并作為新聚點,將每個對象重新進(jìn)行分配,分配要離對象最近的聚點中,如此循環(huán)計算,直到滿足終止條件位置。
3數(shù)據(jù)挖掘技術(shù)在學(xué)習(xí)特征分析中的應(yīng)用
在現(xiàn)代教育理論的指導(dǎo)下,教學(xué)設(shè)計是一套能夠促進(jìn)學(xué)生學(xué)習(xí)、發(fā)展的系統(tǒng)化程序,也是在教學(xué)問題求解過程中,側(cè)重和問題求解中方案的決策、尋找過程,其中,學(xué)習(xí)者的學(xué)習(xí)特征分析是重要的組成部分之一,我們所說的學(xué)習(xí)特征,即學(xué)生的學(xué)習(xí)風(fēng)格、習(xí)慣、準(zhǔn)備狀態(tài)等,雖然和具體學(xué)科的內(nèi)容并沒有直接聯(lián)系,但是對教學(xué)者的內(nèi)容組織、選擇,教學(xué)方法的選擇等都能夠產(chǎn)生一定影響,因此通過對學(xué)習(xí)者的學(xué)習(xí)特點進(jìn)行分析,能夠明確學(xué)生的初始能力,從而確定下學(xué)習(xí)的起點,為選擇教學(xué)內(nèi)容、方式方法提供參考。在利用數(shù)據(jù)挖掘技術(shù)對學(xué)習(xí)者學(xué)習(xí)特征進(jìn)行分析的過程中,首先要對于學(xué)習(xí)者相關(guān)的信息和數(shù)據(jù)進(jìn)行收集并整理,然后本著提高學(xué)習(xí)能力、規(guī)范學(xué)習(xí)行為、幫助學(xué)習(xí)者的目的來選擇數(shù)據(jù)挖掘的方法,例如關(guān)聯(lián)規(guī)則法或是決策樹法,根據(jù)對學(xué)習(xí)者信息和數(shù)據(jù)的分析,能夠挖掘到學(xué)習(xí)者的學(xué)習(xí)風(fēng)格、習(xí)慣等,通過與教學(xué)專家進(jìn)行交流或?qū)で髱椭?,能夠利用?shù)據(jù)挖掘法挖掘到的規(guī)則來確定質(zhì)量的好壞,可以采用聚類分析法來對學(xué)生進(jìn)行分類,然后根據(jù)結(jié)果對學(xué)生再次進(jìn)行關(guān)聯(lián)規(guī)則法的挖掘,或是決策樹法的挖掘,便能夠了解學(xué)生未來發(fā)展方向,指導(dǎo)學(xué)生進(jìn)行專業(yè)或課程的選擇,對具有潛力的學(xué)生進(jìn)行激發(fā),提供一些鍛煉和學(xué)習(xí)的機(jī)會,有針對性的、實際性的進(jìn)行教學(xué),從而培養(yǎng)出不同層次、不同方面的人才。
4數(shù)據(jù)挖掘技術(shù)在教學(xué)決策中的應(yīng)用
利用數(shù)據(jù)挖掘技術(shù)來輔助教學(xué)過程中的決策,主要表現(xiàn)在以下方面。
4.1合理設(shè)置課程
合理設(shè)計課程,即將課程之間的結(jié)構(gòu)安排合理,包括開設(shè)的課程、課程的先后順序、課程之間的銜接等,通過將課程進(jìn)行合理設(shè)置,能夠讓學(xué)生通過學(xué)習(xí)課程,具備相應(yīng)的知識和能力。由于課程的開設(shè)本身就具有一定程度的潛在關(guān)聯(lián)和順序,因此通過數(shù)據(jù)挖掘技術(shù)能夠?qū)撛陉P(guān)聯(lián)、順序進(jìn)行明確,從而找到設(shè)置課程的依據(jù),調(diào)整課程之間的順序,達(dá)到最佳教學(xué)效果。
4.2改進(jìn)教學(xué)方式方法
在教學(xué)過程中,教師會通過運用各種方式方法來完成教學(xué)任務(wù),并達(dá)到最佳教學(xué)效果,但是何種教學(xué)效果才算是最優(yōu)效果,何種方式方法能夠達(dá)到最優(yōu)效果還尚不明確,因此要通過對積累的大量教學(xué)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,來明確教學(xué)的方式方法及效果。利用數(shù)據(jù)挖掘技術(shù)的分類和聚類方法首先對學(xué)生的具體情況進(jìn)行分析,然后利用回歸線和關(guān)聯(lián)規(guī)則的方法來判斷不同專業(yè)、特征的學(xué)生應(yīng)當(dāng)采取怎樣的方式方法進(jìn)行教學(xué),以及教學(xué)內(nèi)容的深度和廣度等,讓教師能夠通過數(shù)據(jù)挖掘技術(shù),了解不同教學(xué)對象應(yīng)當(dāng)使用的教學(xué)方法、內(nèi)容、手段等,用發(fā)展的眼光來看待教學(xué)方法,不斷更新教學(xué)手段,激發(fā)起學(xué)生的學(xué)習(xí)興趣,從而提高教學(xué)質(zhì)量。
4.3合理化考試
考試作為教育教學(xué)活動中的重要環(huán)節(jié),能夠檢驗學(xué)生知識和能力的掌握理解程度,隨著教育改革進(jìn)程的不斷加快,考試也應(yīng)當(dāng)隨著教育的不斷發(fā)展而變化,教師在教學(xué)過程中不能因為考試而教學(xué),也不能因為教學(xué)而考試,考試僅僅是教學(xué)活動中的一個組成部分??荚嚨膬?nèi)容和方法要根據(jù)教學(xué)的目標(biāo)、內(nèi)容、方法來確定,因此想要讓教學(xué)和考試能夠和諧發(fā)展,相互促進(jìn),共同提高,就必須要利用數(shù)據(jù)挖掘技術(shù)來輔助教學(xué)決策,提高評價、考試的合理化。
5數(shù)據(jù)挖掘技術(shù)在教學(xué)評價中的應(yīng)用
所謂教學(xué)評價,即根據(jù)教學(xué)目標(biāo)中的要求,通過測量的工具或方法對學(xué)生學(xué)習(xí)結(jié)果進(jìn)行量化描述,并對量化結(jié)果進(jìn)行價值判斷。教學(xué)評價是教學(xué)管理中的重要環(huán)節(jié)之一,也是引導(dǎo)教育、利用教育成果、促進(jìn)教育發(fā)展的重要保障,但是在傳統(tǒng)的教學(xué)評價方法中,有許多缺陷,主要表現(xiàn)為:第一,主觀因素過多,無法真實反映出客觀實際問題,由于教學(xué)管理部門采用的評價手段并不全面,因此獲得的教學(xué)評價數(shù)據(jù)也并不充分,多數(shù)教學(xué)管理部門都依據(jù)經(jīng)驗來進(jìn)行評價,讓自身的主觀因素來決定評價的結(jié)果;第二,內(nèi)容和形式過于簡單,無法反映出教學(xué)中深層的問題,在內(nèi)容方面,統(tǒng)計出來的數(shù)據(jù)不夠全面,直接或間接的影響教學(xué)效果的因素,如學(xué)生的基礎(chǔ)、教學(xué)的環(huán)境、課程的設(shè)計等都沒有表現(xiàn)出來,且在形式上也較為單一,多采用學(xué)生打分、網(wǎng)評、教師互評、考試成績等,因此,制定評估指標(biāo)時,也忽視了對以往數(shù)據(jù)中隱藏信息的利用,導(dǎo)致教學(xué)評估評價的制定沒有歷史依據(jù),僅僅是單純某次評估的結(jié)果,無法反映出分析數(shù)據(jù)的結(jié)果,以及教學(xué)過程中存在的問題;第三,無法起到教學(xué)評價應(yīng)當(dāng)具有的作用,通常來講,教學(xué)評價僅僅為了評優(yōu)、晉升等活動的依據(jù),但是實際上,教學(xué)評價的作用遠(yuǎn)不僅如此,客觀的、良好的教學(xué)評價能夠在教學(xué)過程中發(fā)揮出積極的、正面的作用,并能夠在整體上調(diào)節(jié)、激勵、促進(jìn)、控制教學(xué)活動的進(jìn)行,保證教學(xué)活動能夠?qū)崿F(xiàn)最終目標(biāo)。因此,通過數(shù)據(jù)挖掘技術(shù)對學(xué)生成績、基本信息、評價信息中的數(shù)據(jù)進(jìn)行處理,能夠進(jìn)行深層的數(shù)據(jù)分析,并發(fā)現(xiàn)各因素之間的關(guān)聯(lián)性關(guān)系,從而找到隱藏的規(guī)律以及對教學(xué)效果產(chǎn)生影響因素之間的關(guān)系,綜合的評定、評價教學(xué)成果,保證評價的全面、多元、科學(xué)、可靠以及客觀公正,促進(jìn)教學(xué)水平和質(zhì)量的整體提高。總之,建立起合理的教學(xué)評價體系,能夠強(qiáng)化學(xué)校教學(xué)管理,提高教學(xué)質(zhì)量,促進(jìn)教學(xué)基本建設(shè),促進(jìn)專業(yè)課程建設(shè),促進(jìn)師資隊伍建設(shè),從而提高學(xué)校凝聚力,增強(qiáng)學(xué)校競爭優(yōu)勢。
6結(jié)束語
綜上所述,我們可以通過利用數(shù)據(jù)挖掘技術(shù)來明確各個要素之間的隱藏關(guān)聯(lián)關(guān)系,通過將數(shù)據(jù)挖掘技術(shù)應(yīng)用在學(xué)校教學(xué)中,能夠挖掘?qū)W習(xí)者的學(xué)習(xí)特征、輔助教學(xué)決策、幫助教學(xué)評價。筆者在對數(shù)據(jù)挖掘技術(shù)進(jìn)行分析和研究的基礎(chǔ)之上,首先對兩種常用的數(shù)據(jù)挖掘技術(shù)——關(guān)聯(lián)規(guī)則和決策樹進(jìn)行敘述,然后針對數(shù)據(jù)挖掘技術(shù)在學(xué)校教學(xué)中的應(yīng)用提出一些個人觀點,相信在不久的將來,數(shù)據(jù)挖掘技術(shù)能夠代替以往傳統(tǒng)的數(shù)據(jù)分析技術(shù),幫助學(xué)校教育適應(yīng)現(xiàn)代化教育的潮流,緊跟現(xiàn)代化教育的腳步,提升學(xué)校教學(xué)水平。
參考文獻(xiàn):
[1]李瑞林.數(shù)據(jù)挖掘技術(shù)在教學(xué)過程中的應(yīng)用[J].制造業(yè)自動化,2010,9(73).
[2]唐仕敏.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)中的應(yīng)用[J].產(chǎn)業(yè)與科技論壇,2011,1(38).
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);交互課堂;特點
課堂教學(xué)是一個具有一定周期性的過程,作為授業(yè)者的教師,通過不斷的教學(xué)實踐,對教學(xué)設(shè)計不斷地進(jìn)行優(yōu)化、更新、管理及評價的過程。本文探討通過數(shù)據(jù)挖掘技術(shù)建立一個可以對課堂交互中的信息進(jìn)行有效整理、合理分析的信息處理模型,從而有效促進(jìn)教學(xué)設(shè)計的不斷更新。
一、課堂互動中信息的特點
在課堂教學(xué)中的信息交互是通過師生人際交流、教學(xué)過程等實現(xiàn)的,這決定了這些信息具有以下基本特點:
1.信息采集工作量大
在課堂互動中由于交流過程中所表達(dá)的信息類型較多,包括教師的講授、提問、指示等方面的信息、教師接受學(xué)生的意見信息、教師給予學(xué)生的鼓勵表揚、對學(xué)生的建議批評、學(xué)生答問信息、學(xué)生之間的討論、思考問題等信息,還有一些是課堂上與正常教學(xué)行為不相關(guān)的其他信息、課堂外有學(xué)生的作業(yè)、教師的批改以及自身學(xué)習(xí)與發(fā)展方面信息等。對這些信息數(shù)據(jù)的采集、處理工作量比較大。
2.可量化性低
課堂內(nèi)外互動中的信息絕大多數(shù)是由言語、肢體語言來交互的,其中一些類似如學(xué)生對教學(xué)內(nèi)容與方式的反應(yīng)、學(xué)習(xí)中的興趣愛好、教師與學(xué)生互動中交流信息等不容易進(jìn)行定性量化,導(dǎo)致處理起來比較困難。
3.信息的包容性大
在教學(xué)互動過程中的各類信息,如教師的教學(xué)方式、教學(xué)風(fēng)格、教學(xué)內(nèi)容的組織、師生的個人思維動態(tài)等都包含了各種各類的信息綜合體,非常難以從這些信息的表面就判斷信息的類屬。同時這些信息有些還屬于生物信息范疇,難以分析。
4.信息的不確定性
在課堂互動教學(xué)過程中對學(xué)生當(dāng)前學(xué)習(xí)狀態(tài)、知識的掌握程度的判斷是基于教師的個人理解,具有不確定性,是具有一定的誤差的。而在教學(xué)過程中對提問中學(xué)生的反應(yīng),判定學(xué)生的回答正確與否,都具有教師的主觀性。
正是由于課堂互動中的信息具有以上特征,從而使得數(shù)據(jù)信息采集工作量大,定性量化比較困難。所以很久以來從事教育信息整合的研究者常喜歡于用質(zhì)的定性研究來評價,隨著當(dāng)前數(shù)據(jù)處理科學(xué)的進(jìn)步,如何更客觀地對課堂中的交互信息進(jìn)行定性、量化、處理變得尤為重要。通過對潛在信息數(shù)據(jù)中有價值的內(nèi)容的提煉、整合、處理,可以及時從里面發(fā)現(xiàn)有用的數(shù)據(jù)信息,從大量互動數(shù)據(jù)中找到教育規(guī)律,用以教師對教學(xué)的改進(jìn)。歸根結(jié)底,我們對課堂互動中信息的數(shù)據(jù)挖掘,是為了處理過后的信息反饋與我們的教學(xué),從而更加有效地改進(jìn)我們教學(xué)系統(tǒng)的設(shè)計、評價等系統(tǒng)。
二、數(shù)據(jù)挖掘及其技術(shù)
數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,其目標(biāo)是支持利用數(shù)據(jù)進(jìn)行合理的決策。
根據(jù)信息存儲格式的不同,用于挖掘的對象有關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、數(shù)據(jù)倉庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫以及Internet等。其任務(wù)主要是關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時序模式分析等。
數(shù)據(jù)挖掘的流程包括以下過程,這些過程不是一次完成的,其中某些步驟或者全過程可能要反復(fù)進(jìn)行:(1)問題的定義;(2)數(shù)據(jù)準(zhǔn)備;(3)數(shù)據(jù)挖掘;(4)結(jié)果分析;(5)知識表示。
三、交互課堂中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
在交互課堂的設(shè)計中我們可以根據(jù)課堂互動信息的相關(guān)特點,通過整合數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)處理優(yōu)勢,從包含海量信息的師生行動和語言互動中發(fā)掘并定性出有用的信息。然后通過對這些信息的統(tǒng)計等處理,讓隱藏在自然語言下的信息變成電子信息數(shù)據(jù),通過教師對數(shù)據(jù)挖掘規(guī)則的參與,有效利用這些信息,從而產(chǎn)生可以指導(dǎo)我們教學(xué)實踐的數(shù)據(jù)挖掘結(jié)果。下面我們深入探討一下課堂交互中的數(shù)據(jù)挖掘應(yīng)用。
1.課堂互動中數(shù)據(jù)挖掘的主要任務(wù)
利用數(shù)據(jù)挖掘技術(shù)可從以下三個方面對零碎的、不容易識別的課堂互動信息進(jìn)行挖掘。
(1)對教師教學(xué)信息的挖掘。①對教師教學(xué)風(fēng)格、特點的信息挖掘:包括對教師語言特點、提問的比率、提問的開放性程度、與學(xué)生的互動能力等主觀性因素進(jìn)行量化,可視化。②對教學(xué)信息中可重復(fù)部分的挖掘:利用分類、統(tǒng)計、甄別等工具把一些共性的信息提煉出來,拆分教學(xué)內(nèi)容,概括出課堂交互中所傳遞信息的共性點,分析交互的信息量,進(jìn)行定性。還可以根據(jù)特定的課程進(jìn)行分析。③教學(xué)設(shè)計、教學(xué)科目設(shè)置結(jié)構(gòu)等信息:通過對不同的科目的教學(xué)設(shè)計的分析,可以了解科目類別之間的關(guān)系。通過數(shù)據(jù)挖掘后直觀地分析表和圖,系統(tǒng)可為教師提供教學(xué)設(shè)計對比,促進(jìn)教學(xué)過程的改進(jìn)。④教師對新技術(shù)應(yīng)用的發(fā)現(xiàn):隨著社會的發(fā)展和進(jìn)步,各種各樣的信息技術(shù)手段在課堂交互中被利用,這些手段為改進(jìn)課堂互動的效率提供了有效的環(huán)境。利用數(shù)據(jù)挖掘技術(shù),對教師對新技術(shù)手段的應(yīng)用效果及比例進(jìn)行觀察,對新技術(shù)手段對課堂交互的促進(jìn)效果進(jìn)行評估。⑤師生交互的模式:師生交互的模式有多種多樣,數(shù)據(jù)挖掘利用課程、科目、交互的模式、交互的效果等等進(jìn)行分析,找出各種因素之間的關(guān)聯(lián),為教師提供基于實際應(yīng)用的合理模式推薦。⑥課堂互動過程變動信息:利用定性量化的課堂交互數(shù)據(jù),通過數(shù)據(jù)挖掘得出所需評估科目在交互過程中的變化,以提高教師對交互課堂的教學(xué)進(jìn)程的把握程度。
(2)學(xué)生相關(guān)信息的挖掘??梢詮囊韵聨讉€方面對學(xué)生的課堂反應(yīng)和表現(xiàn)進(jìn)行數(shù)據(jù)挖掘:①課堂參與的投入程度:首先觀察學(xué)生的參與比例,其次定性參與學(xué)生的投入程度??梢詫Σ煌膮⑴c程度定性為全部、大多數(shù)、少數(shù)等,對參與投入的定性可以為:積極、一般。②交互的狀態(tài):首先看交互中是不是有多方參與的信息互動,其次看互動中交互是否友善、是否合作良好。③思維反饋的狀態(tài):通過學(xué)生的反饋及主動性的互動,來看課堂交互的思維反饋狀態(tài)是否良好。④情緒表現(xiàn):首先看學(xué)生互動中是否有情感上的投入,比如緊張與愉快;其次看學(xué)生是否能根據(jù)課堂交互的進(jìn)行及時轉(zhuǎn)變狀態(tài),比如前一段談?wù)摎夥諢崃?,轉(zhuǎn)入后一段的靜靜聆聽。⑤課程狀態(tài):首先看學(xué)生能否在課程進(jìn)行中,感到有收獲感;其次看學(xué)生對后續(xù)的課程交互是否抱有期待。
日常的教學(xué)實踐證明,課堂交互中的學(xué)生投入與否,對交互的教學(xué)效果有著決定性的影響。假設(shè)學(xué)生的課堂交互狀態(tài)不夠,那么要找原因的話,就要從教師的教學(xué)設(shè)計或課堂氣氛營造上來找。我們利用學(xué)生信息的數(shù)據(jù)挖掘技術(shù),分析學(xué)生在交互的過程中的狀態(tài),形成直觀的信息材料,為教師課堂教學(xué)的組織的改進(jìn)提供支撐,同時也可以為教師教學(xué)效果評價提供依據(jù)。
(3)教師、學(xué)生課堂交互信息的挖掘?!皫熒换ァ笔墙虒W(xué)設(shè)計實施中的關(guān)鍵環(huán)節(jié),交互意味著師生有語言上的交流及行為上的互動。在課堂教學(xué)交互過程中一般互動是在授課者與聽課者、課程設(shè)計與教學(xué)實際之間進(jìn)行的。師生間的交互信息主要表現(xiàn)在師生的互動交流、教師為學(xué)生直接提供的課程內(nèi)容、課程內(nèi)容的問答和學(xué)生錯誤的反饋等。通過使用數(shù)據(jù)挖掘技術(shù),深入挖掘教學(xué)中的交互信息,讓老師改進(jìn)自己的教學(xué)設(shè)計及課堂行為,提高實際教學(xué)效果,實現(xiàn)師生之間進(jìn)行有效的互動。
2.挖掘課堂中互動信息的流程
建立課堂互動信息處理的數(shù)據(jù)挖掘系統(tǒng)現(xiàn)場記錄或通過WEB在線應(yīng)用收集交互信息信息的標(biāo)準(zhǔn)化和信息化處理課堂互動信息分類編碼數(shù)據(jù)信息進(jìn)行轉(zhuǎn)換、處理數(shù)據(jù)挖掘挖掘結(jié)果分析反饋教學(xué)過程。
3.課堂互動信息數(shù)據(jù)挖掘方法
在數(shù)據(jù)挖掘方法的選擇上,我們主要采用數(shù)據(jù)挖掘中應(yīng)用廣泛的統(tǒng)計學(xué)、關(guān)聯(lián)分析等方法,同時通過數(shù)據(jù)庫軟件的數(shù)據(jù)技術(shù)對信息進(jìn)行處理。在挖掘課堂互動信息的時候,我們需要對時序數(shù)據(jù)庫和序列數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘,時序數(shù)據(jù)庫中的數(shù)據(jù)是一些反映隨時間變化的序列值或事件組成的數(shù)據(jù)庫,這些值是等時間間隔采集的數(shù)據(jù)。利用統(tǒng)計類挖掘工具和數(shù)據(jù)庫技術(shù)可以在時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘中實現(xiàn)對課堂教育信息的趨勢分析、相似性搜索、與時間有關(guān)數(shù)據(jù)的序列模式挖掘和周期性模式的挖掘。
4.基于課堂交互的數(shù)據(jù)挖掘系統(tǒng)設(shè)計
根據(jù)數(shù)據(jù)挖掘模型及課堂互動信息的特點,基于課堂交互的數(shù)據(jù)挖掘系統(tǒng)可由如下四個部分組成。
(1)數(shù)據(jù)采集模塊:模塊采集的信息主要包括課堂教學(xué)中教師、學(xué)生的各種行為、語言,師生間互動等信息。
(2)數(shù)據(jù)處理模塊:解決語義模糊性,數(shù)據(jù)庫按照元數(shù)據(jù)標(biāo)準(zhǔn)對數(shù)據(jù)進(jìn)行清理、集成和變換,檢查數(shù)據(jù)的完整性和一致性。
(3)數(shù)據(jù)分析模塊:通過分析經(jīng)過轉(zhuǎn)換的數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘的基本策略,對數(shù)據(jù)進(jìn)行分析處理,得出結(jié)果并輸出。如,利用統(tǒng)計類數(shù)據(jù)挖掘工具對反映一般變化方向的教學(xué)趨勢變化進(jìn)行分析,采用加權(quán)平均或最小乘2法對時序圖上的數(shù)據(jù)進(jìn)行處理,以確定數(shù)據(jù)變化趨勢,為后續(xù)的教學(xué)決策與評價提供依據(jù)。
(4)數(shù)據(jù)評價模塊:對提取的信息進(jìn)行分析,將結(jié)果與課堂教學(xué)的教育理論,學(xué)習(xí)理論相結(jié)合,根據(jù)起始目標(biāo)的量規(guī)對課堂教學(xué)效果進(jìn)行評價、反思教學(xué)。將有價值的信息區(qū)分出來,通過決策支持工具提交決策者。根據(jù)每個處理模塊的結(jié)果可以決定是否重新進(jìn)行某些處理過程,在處理的任意階段可以返回以前階段進(jìn)行再處理。在數(shù)據(jù)挖掘技術(shù)實際運用過程中,教師可以根據(jù)自身對信息需求的不同,通過對數(shù)據(jù)挖掘的一些語義規(guī)則的選擇和自定義得到不同的個性化結(jié)果。
關(guān)鍵詞:高校教育信息化;數(shù)據(jù)挖掘
中圖分類號:TP311.13
信息化社會的到來,使各種信息紛涌而至,給高校也帶來了大量的有關(guān)教育、學(xué)生等各類信息,面對如此龐大的信息量,用傳統(tǒng)的信息、數(shù)據(jù)提取的方式已經(jīng)很難滿足高校的要求,而且大量信息所帶來的信息的消化、安全等問題,使得高校必須要借助數(shù)據(jù)挖掘的工具去提取數(shù)據(jù)中隱藏的規(guī)律和模式。
1 數(shù)據(jù)挖掘的概念及過程
1.1 數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是一種提取知識和信息的過程,具體來說就是從大量的、不完整的、有噪音的、模糊、隨機(jī)的在實際中應(yīng)用的數(shù)據(jù)里,提取出其隱藏在內(nèi)部、不被人們事先知道的信息和數(shù)據(jù)的過程。
1.2 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘的過程包括以下幾個方面,數(shù)據(jù)的預(yù)處理、數(shù)據(jù)的挖掘、結(jié)果的分析與應(yīng)用。首先對數(shù)據(jù)進(jìn)行預(yù)處理,通過數(shù)據(jù)清理去掉噪音數(shù)據(jù),保證數(shù)據(jù)的一致,然后對多個文件或多個數(shù)據(jù)庫中的文件進(jìn)行合并、壓縮數(shù)據(jù),形成有效的數(shù)據(jù)集,便于進(jìn)行數(shù)據(jù)挖掘,縮短挖掘的時間,提高挖掘質(zhì)量。接下來對數(shù)據(jù)進(jìn)行挖掘,根據(jù)數(shù)據(jù)的不同類型及特點,選取不同的算法,例如采用分類、神經(jīng)網(wǎng)絡(luò)、遺傳算法等技術(shù)。最后對所得數(shù)據(jù)的結(jié)果進(jìn)行分析,使其能被用戶接受和理解,然后將得出的結(jié)果運用到實踐活動中去。
2 數(shù)據(jù)挖掘在高校教育信息化中應(yīng)用的必要性
目前,計算機(jī)已不單單是計算的工具,它還幫助我們分析和處理數(shù)據(jù),從而做出科學(xué)的決策。隨著信息化社會的快速發(fā)展,人們所接觸、獲得到的數(shù)據(jù)種類不斷增多,數(shù)量也急劇上升,此時用傳統(tǒng)的數(shù)據(jù)分析的方法已不能更快速、更有效的幫助人們解決問題了,這就要求我們運用數(shù)據(jù)挖掘這一手段來進(jìn)行工作。在教育信息化的背景下,高校管理也朝著信息化、網(wǎng)絡(luò)化的方向發(fā)展。在教育教學(xué)過程中,必定會積累大量的教學(xué)數(shù)據(jù),但我們只能對其進(jìn)行簡單的統(tǒng)計與分析,無法了解數(shù)據(jù)深層的內(nèi)容。在教學(xué)評估中,教師也只能把學(xué)生的平時和期末成績作為評價一個學(xué)生的標(biāo)準(zhǔn),無法客觀公正的做出評判。教學(xué)工作者僅憑簡單的經(jīng)驗分析就做出結(jié)論,往往存在很多的漏洞,這就需要數(shù)據(jù)挖掘為我們提供一種更深層次了解數(shù)據(jù)隱藏的信息和內(nèi)容的方法,使管理者做出科學(xué)的決策,及時發(fā)現(xiàn)學(xué)生在學(xué)習(xí)過程中出現(xiàn)的問題,制定行之有效的教學(xué)方法,做出正確客觀的分析評價,提升教育教學(xué)的質(zhì)量和水平??梢姅?shù)據(jù)挖掘具有重要的意義和必要性。
3 數(shù)據(jù)挖掘在高校教育信息化中的應(yīng)用
高校教育信息化是整合先進(jìn)的技術(shù),運用到高校教育管理體系之中,使教育教學(xué)、管理工作和校園的文化生活更網(wǎng)絡(luò)化、信息化,提高教育質(zhì)量和效率,形成一種全新的教育和管理模式。高校教育信息化所產(chǎn)生和積累的數(shù)據(jù),為我們進(jìn)行數(shù)據(jù)挖掘提供了有效的數(shù)據(jù)。數(shù)據(jù)挖掘可以應(yīng)用到高校教育信息化的各個方面,如教學(xué)評價、課程設(shè)置、網(wǎng)絡(luò)教育、分析學(xué)習(xí)者特征、干預(yù)師生行為、輔助考試等方面。
3.1 教學(xué)評價
教學(xué)評價就是根據(jù)教學(xué)目標(biāo)、原則的要求,利用收集到的信息對教學(xué)活動以及教學(xué)成果進(jìn)行評價的過程,主要包括對學(xué)生學(xué)和對教師教的評價。隨著信息化的快速發(fā)展,高校教育信息化積累了大量的學(xué)生成績、行為紀(jì)律、處罰獎勵等數(shù)據(jù),利用數(shù)據(jù)挖掘的方式來進(jìn)行分析處理,可以客觀準(zhǔn)確的得到學(xué)生的評價結(jié)果,及時糾正學(xué)生的不良的學(xué)習(xí)行為,同時還能盡量避免教師因主觀作用對學(xué)生做出的不公平的、不客觀的評價。將數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則運用到教學(xué)評價的數(shù)據(jù)中,使教師能夠認(rèn)識到自身的教學(xué)情況以及學(xué)生的學(xué)習(xí)和個性特點,并給予合理的意見,對今后的教學(xué)工作有一定的指導(dǎo)意義。
3.2 合理設(shè)置課程
高校學(xué)生所進(jìn)行的課程學(xué)習(xí)是循序漸進(jìn)的,對于課程的學(xué)習(xí)要一步一步按照先易后難來進(jìn)行,而且由于教師、學(xué)生以及班級的文化氛圍的不同,同一年級的不同班級在學(xué)習(xí)相同課程時也存在很大的差異。這種情況下,教務(wù)管理人員和任課教師就很難根據(jù)學(xué)生的成績做出客觀、合理的判斷,從而做出教學(xué)進(jìn)程的決策。因此,要借助于數(shù)據(jù)挖掘技術(shù),從大量已有數(shù)據(jù)中挖掘出有用的信息和內(nèi)容,分析各數(shù)據(jù)之間存在的關(guān)系,找到影響學(xué)生成績的因素,然后在此基礎(chǔ)上,對課程設(shè)置做出合理的安排。
3.3 個性化、智能化網(wǎng)絡(luò)教育
個性化、智能化網(wǎng)絡(luò)遠(yuǎn)程教育充分的利用了數(shù)據(jù)挖掘的技術(shù),遠(yuǎn)程教育的順利開展得到保障。首先根據(jù)學(xué)生所提供的信息,對不同層次的學(xué)生提供不同的學(xué)習(xí)內(nèi)容和模式,進(jìn)行因材施教。其次,對已保存的學(xué)生的信息進(jìn)行數(shù)據(jù)挖掘,利用已有的資源,對課程進(jìn)行重新組合,使之更符合教學(xué)規(guī)律。最后通過對學(xué)習(xí)者學(xué)習(xí)行為進(jìn)行數(shù)據(jù)挖掘,了解學(xué)習(xí)者的瀏覽模式,重新進(jìn)行頁面之間的鏈接,以符合學(xué)習(xí)者的訪問習(xí)慣。
3.4 學(xué)習(xí)者特征分析
對學(xué)習(xí)者特征的分析在教育活動中具有重要的地位。它不僅是教學(xué)設(shè)計的前提,是教學(xué)成功的關(guān)鍵。學(xué)習(xí)者特征包括學(xué)習(xí)者的知識結(jié)構(gòu)和學(xué)習(xí)風(fēng)格。學(xué)習(xí)者的知識結(jié)構(gòu)是學(xué)習(xí)者已經(jīng)學(xué)習(xí)的或即將學(xué)習(xí)的內(nèi)容。學(xué)習(xí)風(fēng)格包括學(xué)習(xí)者的生理、心理和社會特征。利用數(shù)據(jù)挖掘來分析學(xué)習(xí)者的特征,不僅有助于學(xué)習(xí)者改進(jìn)自己的學(xué)習(xí)行為,而且能提高學(xué)習(xí)者的學(xué)習(xí)能力,完善其人格,有利于學(xué)習(xí)者素質(zhì)的全面、和諧發(fā)展。
3.5 干預(yù)學(xué)生行為
在干預(yù)學(xué)生行為方面也可以使用數(shù)據(jù)挖掘技術(shù)。高校的教育教學(xué)人員可以根據(jù)高校數(shù)據(jù)庫中保存的學(xué)生的家庭條件、學(xué)習(xí)狀況、獎勵處罰等情況,通過數(shù)據(jù)挖掘中分類等方法找到學(xué)生行為活動的關(guān)系,及時對做出學(xué)生下一步行為的預(yù)測,防止學(xué)生出現(xiàn)不良行為。例如在學(xué)校課程增多,難度加大,學(xué)生學(xué)習(xí)壓力重,而且家庭出現(xiàn)矛盾的情況下,學(xué)生很容易出現(xiàn)抑郁或偏激行為,通過數(shù)據(jù)挖掘技術(shù),學(xué)校教務(wù)管理人員及教師可以及時做出預(yù)測,并做好預(yù)防工作,就可以有效避免這種情況的發(fā)生。
3.6 輔助考試
考試是教學(xué)環(huán)節(jié)中必不可少的一部分,也是用來考察學(xué)生學(xué)習(xí)成果的。從考試分?jǐn)?shù)可以說明在一定時期內(nèi)學(xué)生的學(xué)習(xí)情況,但不能說明影響成績的因素有哪些,無法得知教學(xué)中關(guān)乎成敗的關(guān)鍵因素,就不能對教師教和學(xué)生學(xué)起到促進(jìn)作用。利用數(shù)據(jù)挖掘可以對學(xué)生平時的學(xué)習(xí)情況進(jìn)行分析,從而做出全面的、有針對性的評價。例如可以用平時成績、作業(yè)成績、點播課件等各種平時教學(xué)中的成績進(jìn)行考察,縮減期末考試成績的比重,加大對學(xué)生平時自主學(xué)習(xí)的考核。在這過程中產(chǎn)生的大量數(shù)據(jù)可使用數(shù)據(jù)挖掘工具進(jìn)行處理、分析??荚囶}的質(zhì)量對學(xué)生考試的分?jǐn)?shù)有很大的影響。因此可以將數(shù)據(jù)挖掘應(yīng)用到對試卷分析的數(shù)據(jù)庫中,通過對每道題目的難易度、區(qū)分度、相關(guān)度等的分析,教師就能夠?qū)υ囶}的質(zhì)量做出比較客觀、準(zhǔn)確的評價,可以更好的了解學(xué)生對所學(xué)知識的掌握和運用情況,為開展以后的教學(xué)工作提供有益的指導(dǎo)。
4 結(jié)束語
高校教育信息化帶來是信息量的增長和提取信息工作的難度。數(shù)據(jù)挖掘技術(shù)有效的避免了傳統(tǒng)信息提取的問題,更深層面的發(fā)掘隱藏的規(guī)律和模式,為教育教學(xué)工作的設(shè)計、決策、實施等方面提供了新的途徑,帶來了更多的便利。隨著科學(xué)技術(shù)的日新月異、信息技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)還將更廣泛的被應(yīng)用到各個領(lǐng)域,并發(fā)揮著日益重要的作用。
參考文獻(xiàn):
[1]肖自力.信息素養(yǎng)教育和高校圖書館的使命[J].大學(xué)圖書館學(xué)報,2011(5).
[2]劉同明.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[M].北京:國防工業(yè)出版社,2010(4).
關(guān)鍵詞:實踐教學(xué)研究;建構(gòu)主義理論;信息管理專業(yè);數(shù)據(jù)挖掘
中圖分類號:G642.0?搖 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-9324(2014)15-0197-02
一、引言
隨著數(shù)據(jù)挖掘、商務(wù)智能技術(shù)的快速發(fā)展與廣泛應(yīng)用,作為綜合型應(yīng)用型人才的信息管理專業(yè)的本科生必須在掌握一定理論知識的前提下熟悉數(shù)據(jù)挖掘的實踐操作,能夠根據(jù)實際數(shù)據(jù)構(gòu)建數(shù)據(jù)倉庫的多維模型、進(jìn)行聯(lián)機(jī)分析處理,并能結(jié)合案例主動思考分析,熟練選擇合適的數(shù)據(jù)挖掘方法解決管理領(lǐng)域的問題,得出數(shù)據(jù)挖掘的結(jié)論。這就對數(shù)據(jù)挖掘課程的實踐教學(xué)提出了很高的要求。數(shù)據(jù)挖掘是一門與多學(xué)科交叉的綜合課程,其課程內(nèi)容豐富、課程案例和使用工具具有多樣化特征,這使得實踐教學(xué)設(shè)計的方案的可選擇性增強(qiáng)了,同時也對選擇適合的內(nèi)容、案例與工具并設(shè)計成一個完善的系統(tǒng)化的實驗增加了難度。
二、基于建構(gòu)主義理論進(jìn)行實踐教學(xué)設(shè)計
1.建構(gòu)主義理論與實踐教學(xué)目標(biāo)。建構(gòu)主義理論強(qiáng)調(diào),學(xué)生通過以往的學(xué)習(xí)和經(jīng)歷已經(jīng)形成了對客觀事物的基本理解和認(rèn)識,已具備了一定的知識結(jié)構(gòu),學(xué)習(xí)的過程是學(xué)生個人的知識儲備與知識結(jié)構(gòu)和外界影響相結(jié)合,并在結(jié)構(gòu)過程中繼續(xù)主動地建構(gòu)自己新知識結(jié)構(gòu)的過程[1]。
基于建構(gòu)主義理論,給出數(shù)據(jù)挖掘課程實踐教學(xué)的主要目標(biāo)即為在原有理論知識理解的基礎(chǔ)上,在新的教學(xué)實驗情景下不斷學(xué)習(xí)和理解,最終熟悉了實驗情景、掌握了課程設(shè)計的應(yīng)用,還能改達(dá)到對原有知識的深刻理解,進(jìn)而能在新的實驗情景和新的應(yīng)用案例下有啟發(fā)式的想法和思路,進(jìn)行獨立的思考和研究。具體包括:鞏固已學(xué)習(xí)知識、加深對理論知識的理解,實驗內(nèi)容設(shè)計與教材理論體系一脈相承,有助于學(xué)生系統(tǒng)化理解本課程;深刻理解數(shù)據(jù)挖掘多步驟之間以分析為驅(qū)動、以數(shù)據(jù)相銜接的前后關(guān)系;訓(xùn)練學(xué)生對管理問題的抽象能力,培養(yǎng)學(xué)生學(xué)習(xí)興趣。通過管理實例深刻體會到數(shù)據(jù)挖掘方法的重要性和實用性,培養(yǎng)學(xué)生對課程的興趣,引導(dǎo)學(xué)生學(xué)會科學(xué)思考問題、提煉問題;熟悉主流軟件,為學(xué)生踏入數(shù)據(jù)倉庫與數(shù)據(jù)挖掘領(lǐng)域做好鋪墊。實驗使用業(yè)內(nèi)流行的數(shù)據(jù)整合軟件和商務(wù)智能軟件進(jìn)行實驗設(shè)計,使得學(xué)生的實踐適應(yīng)技術(shù)的發(fā)展。
2.基于建構(gòu)主義理論選擇實驗工具與實驗案例。建構(gòu)主義認(rèn)為,學(xué)是與一定的情境相聯(lián)系的。學(xué)習(xí)情境是學(xué)生可以在其中進(jìn)行自由探索和自主學(xué)習(xí)的場所,一個良好的實踐教學(xué)情景設(shè)計對學(xué)生學(xué)習(xí)要有明顯的激發(fā)和引導(dǎo)作用。
在案例選擇時,教師可以為學(xué)生提供一種典型的案例背景,在這種背景下的研究方法可以給予較多的輔導(dǎo),使學(xué)生首先熟悉實驗工具的環(huán)境,以及實驗工具、實驗案例與實驗內(nèi)容和原理的融合。再準(zhǔn)備一些其他的經(jīng)典案例供學(xué)生自由選擇,鼓勵學(xué)生用已有的知識來尋找最佳解決方案。這樣,就促進(jìn)了學(xué)生對知識、能力的遷移,并使得這一過程成為學(xué)生能力和自我有意識的調(diào)節(jié)過程。在確定軟件選擇方案方面,根據(jù)對國內(nèi)外調(diào)研情況的分析[2],數(shù)據(jù)挖掘?qū)嵺`模塊的工具的選擇,可以分為以下三種情況:一是使用基本工具編程實現(xiàn)算法;二是直接使用具備數(shù)據(jù)整合、多維數(shù)據(jù)建模等方法的商務(wù)智能工具;三是使用數(shù)據(jù)挖掘軟件進(jìn)行數(shù)據(jù)建?;蚓幊涕_發(fā)。根據(jù)信管專業(yè)培養(yǎng)方案的培養(yǎng)目標(biāo),后兩種模式較為適合。可以針對學(xué)生基礎(chǔ)知識的掌握情況,選擇合適的工具為學(xué)生設(shè)計綜合性實驗,并在實驗后期留一部分自由度,讓學(xué)生自己設(shè)計數(shù)據(jù)倉庫、進(jìn)行數(shù)據(jù)挖掘,并對挖掘結(jié)果進(jìn)行多種形式的展示。
3.基于建構(gòu)主義理論設(shè)計實驗原理與內(nèi)容。建構(gòu)主義理論認(rèn)為,意義建構(gòu)是整個學(xué)習(xí)過程的最終目標(biāo),即認(rèn)識事物的性質(zhì)、規(guī)律以及事物之間的內(nèi)在聯(lián)系,通過“同化”和“順應(yīng)”來完善和豐富個體的認(rèn)知結(jié)構(gòu)[1]。“同化”是利用原有認(rèn)知結(jié)構(gòu)中的有關(guān)經(jīng)驗去學(xué)習(xí)當(dāng)前的新知識,并對新知識進(jìn)行過濾或改變,原有框架的一部分。如果原有經(jīng)驗不能“同化”新知識,則要引起“順應(yīng)”過程,即對原有認(rèn)知結(jié)構(gòu)進(jìn)行改造與重組。[3]
基于建構(gòu)主義理論進(jìn)行實踐教學(xué)活動設(shè)計,需要圍繞意義建構(gòu)目標(biāo)而展開,需要在安排實踐教學(xué)課程前,明確理論課程的主要框架,并遵循已有的理論框架和邏輯結(jié)構(gòu)安排實踐環(huán)節(jié),這樣學(xué)生就能夠更有效地從學(xué)習(xí)過程中理解當(dāng)前實踐內(nèi)容所反映的事物性質(zhì)、規(guī)律及其互相聯(lián)系。
實驗原理實際就是實驗所選擇的理論和方法基礎(chǔ),在實驗設(shè)計時最好能依據(jù)課堂內(nèi)容進(jìn)行選擇,并注意最好選擇按照課堂內(nèi)容的順序前后銜接,這樣更加符合建構(gòu)主義的教育方法。實驗內(nèi)容就是以與學(xué)生專業(yè)相符合的案例和案例的數(shù)據(jù),應(yīng)用實驗原理進(jìn)行實驗的設(shè)計。在本課程中主要的實驗原理是:應(yīng)用數(shù)據(jù)預(yù)處理抽取、轉(zhuǎn)換和裝載方法,對原始數(shù)據(jù)進(jìn)行整合和裝載;應(yīng)用數(shù)據(jù)倉庫的OLAP技術(shù),建立星型模式的多維數(shù)據(jù)模型,并進(jìn)行OLAP操作,應(yīng)用多維數(shù)據(jù)展示技術(shù)進(jìn)行數(shù)據(jù)展示;應(yīng)用數(shù)據(jù)挖掘分類與預(yù)測方法,對多維數(shù)據(jù)建模、預(yù)測,并使用報表工具展示挖掘的結(jié)果。主要實驗內(nèi)容包括:數(shù)據(jù)集成與轉(zhuǎn)換,使用Pervasive軟件實現(xiàn)數(shù)據(jù)存儲格式轉(zhuǎn)換、集成;進(jìn)行Mstr商務(wù)智能軟件的基本配置,并將實驗1的數(shù)據(jù)裝載到軟件的數(shù)據(jù)倉庫表中,為實驗3做準(zhǔn)備;數(shù)據(jù)倉庫與多維數(shù)據(jù)的OLAP操作,使用商務(wù)智能軟件針對原始數(shù)據(jù)建立星型模式多維數(shù)據(jù)模型,實現(xiàn)多維數(shù)據(jù)模型的OLAP操作,掌握商務(wù)智能軟件的數(shù)據(jù)展示功能;數(shù)據(jù)挖掘方法應(yīng)用,創(chuàng)建季度指數(shù)度量,進(jìn)行數(shù)據(jù)挖掘前的數(shù)據(jù)轉(zhuǎn)換,并創(chuàng)建訓(xùn)練度量實現(xiàn)對銷售量的預(yù)測。
4.基于建構(gòu)主義理論設(shè)計實踐教學(xué)方式和方法。在建構(gòu)主義理論下,教師需要由傳統(tǒng)的知識的傳授者與灌輸者轉(zhuǎn)而成為實踐教學(xué)的設(shè)計者、組織者、引導(dǎo)者。教師要引導(dǎo)學(xué)生形成分析問題的思路,啟發(fā)學(xué)生對實踐活動進(jìn)行評價、反思和討論,幫助學(xué)生深刻理解學(xué)習(xí)內(nèi)容并形成新的認(rèn)知結(jié)構(gòu)。從課程內(nèi)容安排上分析,建構(gòu)主義強(qiáng)調(diào)“支架式教學(xué)”,即為學(xué)習(xí)者的知識建構(gòu)提供一種概念框架[4]。為此,要在安排實驗前對實驗任務(wù)加以分解,形成逐漸遞進(jìn)式的概念框架,便于由淺入深逐步引入實踐內(nèi)容。例如,對于第三個實驗――數(shù)據(jù)倉庫與多維數(shù)據(jù)的OLAP操作,教師首先帶大家回顧多維數(shù)據(jù)模型的星型模式、OLAP操作和多維數(shù)據(jù)展示三部分理論課內(nèi)容,再分析案例數(shù)據(jù),引導(dǎo)學(xué)生思考如何對案例數(shù)據(jù)進(jìn)行處理,然后給出答案,加深對原來這三部分內(nèi)容的理解。從對學(xué)生的引導(dǎo)和教學(xué)方法上來說,應(yīng)該充分發(fā)揮學(xué)生的主動性,鼓勵學(xué)生大膽探索,主動觀察和認(rèn)識客觀事物,并鼓勵學(xué)生在在實踐中重新整合頭腦中原有的知識,通過討論、思考的過程加深對客觀事物的認(rèn)識。在條件允許的前提下,為學(xué)生提供更多的案例訓(xùn)練的機(jī)會,加深對知識的理解和知識架構(gòu)的豐富與完善。本實驗選用的實驗?zāi)J綖樾〗M討論、教師引導(dǎo)、上機(jī)實驗相結(jié)合的方式,使用的具體方法有錄制實驗教學(xué)視頻,引導(dǎo)學(xué)生思考初始數(shù)據(jù)蘊含的管理問題,畫出課程知識點與實驗過程、軟件使用關(guān)系圖等方式。
三、實驗效果與結(jié)論
使用建構(gòu)主義理論設(shè)計實踐環(huán)節(jié),事前給學(xué)生做好知識架構(gòu)的鋪墊,針對入門級實踐,進(jìn)行原理的講解與回憶、進(jìn)行實驗過程的引導(dǎo)思考與詳細(xì)講授,同時提供更多情景資源給學(xué)生訓(xùn)練;對深入研究型的部分,給學(xué)生較大自由度,由學(xué)生自己完成。該門課程多數(shù)學(xué)生能夠獨立完成實驗過程,并且能夠在實驗過程中較好地理解實驗原理,分析管理問題。本實驗綜合效果較好,隨著數(shù)據(jù)挖掘在信息管理專業(yè)中重要性的增強(qiáng),在教學(xué)實踐中增加課時的可能性很大,繼續(xù)使用建構(gòu)主義理論進(jìn)行實踐環(huán)節(jié)設(shè)計對學(xué)生也更有好處。
參考文獻(xiàn):
[1]張向葵.教育心理學(xué)[M].北京:中央廣播電視大學(xué)出版社,2003.
[2]韓家煒.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[3]趙學(xué)凱,趙芳.教學(xué)建設(shè)與改革[J].北京教育,2007,(01).
[4]齊宏,王愛萍.實踐教學(xué)環(huán)節(jié)的認(rèn)知理論基礎(chǔ)與教學(xué)設(shè)計[J].開放學(xué)習(xí),2007,(7).
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;成績管理
中圖分類號:TP311.13
努力提高學(xué)生的成績和學(xué)生素質(zhì)是每一所高校的目標(biāo),隨著高校的辦學(xué)規(guī)模的擴(kuò)大、辦學(xué)層次多樣化,隨著社會的發(fā)展,影響學(xué)生學(xué)習(xí)成績的因素也越來越多,學(xué)生成績分析就更加重要。目前教務(wù)管理系統(tǒng)中收集了大量的學(xué)生成績數(shù)據(jù),管理者大都采用傳統(tǒng)的統(tǒng)計報表形式,對這些數(shù)據(jù)的處理還停留在數(shù)據(jù)錄入、簡單的數(shù)據(jù)備份和查詢階段,有很大的局限性。
數(shù)據(jù)挖掘技術(shù)在許多領(lǐng)域,如商業(yè)、金融業(yè)以及企業(yè)的生產(chǎn)、市場營銷等一些盈利行業(yè)都得到了廣泛的應(yīng)用,但在非盈利行業(yè)教育領(lǐng)域的應(yīng)用相對還較少,將數(shù)據(jù)挖掘技術(shù)引入到教務(wù)管理信息系統(tǒng)中,對教務(wù)管理系統(tǒng)中的學(xué)生成績數(shù)據(jù)進(jìn)行分析,從大量數(shù)據(jù)存在的關(guān)系、規(guī)則中研究學(xué)生成績,預(yù)測成績發(fā)展趨勢,從而能夠更好地指導(dǎo)教師排課和學(xué)生選課,對學(xué)生管理工作有的放矢,提高授課和學(xué)習(xí)效果能起到非常重要的作用。本文主要使用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則進(jìn)行高校學(xué)生成績分析,以找出課程之間的關(guān)聯(lián)關(guān)系,指導(dǎo)學(xué)生選課和合理的設(shè)置課程。
1 數(shù)據(jù)挖掘關(guān)聯(lián)算法
1.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是一個應(yīng)用數(shù)據(jù)分析工具從大量數(shù)據(jù)中發(fā)現(xiàn)以前未知的和隱蔽的信息,以及數(shù)據(jù)之間關(guān)系的研究領(lǐng)域。這些工具包括統(tǒng)計模型,數(shù)學(xué)算法和機(jī)器學(xué)習(xí)方法。綜合了多學(xué)科內(nèi)容的數(shù)據(jù)挖掘,把原來對知識的簡單應(yīng)用,比如學(xué)生成績的操作及簡單查詢等方面擴(kuò)展到了對知識信息的深度提取運用,比如從現(xiàn)有的學(xué)生信息數(shù)據(jù)庫中挖掘?qū)W(xué)生成績有影響的屬性信息,幫助學(xué)校合理調(diào)整教學(xué)計劃,提高教學(xué)質(zhì)量。出于對此類應(yīng)用的需求,使數(shù)據(jù)挖掘這門前沿學(xué)科吸引了各個領(lǐng)域的研究者。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有自動預(yù)測趨勢和行為、關(guān)聯(lián)分析、聚類、概念描述(決策樹方法、遺傳算法)及偏差檢測。本文主要應(yīng)用了關(guān)聯(lián)規(guī)則。
1.2 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則的挖掘是為了在數(shù)據(jù)庫中發(fā)現(xiàn)關(guān)聯(lián)關(guān)系,它是數(shù)據(jù)挖掘最先研究的問題之一,也是數(shù)據(jù)挖掘的一個主要研究方向,起初是研究超市的顧客交易數(shù)據(jù)庫中的購買商品之間的關(guān)聯(lián)規(guī)則的挖掘問題,即貨物籃數(shù)據(jù)的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘的目的是找出數(shù)據(jù)庫中不同數(shù)據(jù)項集之間隱藏的關(guān)聯(lián)關(guān)系。
設(shè)I={i1,i2,…im}是項的集合。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,其中每個事務(wù)T是項的集合,使得 。每個事務(wù)有一個標(biāo)識符,稱作TID。設(shè)A是一個項集,事務(wù)T包含A當(dāng)且僅當(dāng) 。關(guān)聯(lián)規(guī)則是諸如A=>B的蘊涵式,其中 , ,并且 。規(guī)則的支持度和置信度是兩個規(guī)則興趣度量值,它們分別表示發(fā)現(xiàn)規(guī)則的有用性和確定性。
Sup port(A=>B)=P(A∪B) confidence(A=>B)=P(B/A)
同時滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱作強(qiáng)規(guī)則,我們用0%和100%之間的值而不是用0到1之間的值表示支持度和置信度。
1.3 Aprior算法
Aprior算法是經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法,使用一種逐層搜索的迭代方法,k項集用于探索(k+1)項集。首先,找出頻繁1項目集的集合,該集合記作L1,然后由L1得到L2,由L2得到L3,如此下去,直到不能找到頻繁k一項目集。每找一層Lk均需要一次數(shù)據(jù)庫掃描。
Apriori算法的在執(zhí)行過程中存在兩個缺點,一個是需要多次掃描事務(wù)數(shù)據(jù)庫D,一個是可能產(chǎn)生龐大的候選集。在本文應(yīng)用中,基于劃分的優(yōu)化方法。使用劃分技術(shù),可以只需要對數(shù)據(jù)庫進(jìn)行兩遍掃描,就可以發(fā)現(xiàn)全部頻繁集,從而大大降低對數(shù)據(jù)庫的掃描遍數(shù)。將數(shù)據(jù)庫分成許多區(qū)段,在找出頻繁項集時,需要經(jīng)過兩步:計算各區(qū)段中項集的支持度,以找出各區(qū)段中的所有頻繁項集:將各區(qū)段中所有的頻繁項集合結(jié)合起來后,再掃描數(shù)據(jù)庫找出真正的頻繁項集合。
2 成績數(shù)據(jù)的關(guān)聯(lián)挖掘
教務(wù)管理系統(tǒng)中收集了大量的學(xué)生成績數(shù)據(jù),如學(xué)生相關(guān)可包含學(xué)號、姓名、性別、班級、年級、分?jǐn)?shù)等,教師相關(guān)可包含教師號、性別、科目、學(xué)歷、職稱、教齡等,課程相關(guān)可包含課程名稱、課程號、考試類型、考試難度等數(shù)據(jù)。采取不同的數(shù)據(jù)挖掘方法,可進(jìn)行如圖1,不同角度分析,挖掘不同的隱藏信息。挖掘獲取的信息是不可預(yù)測的,但要探索的問題是有預(yù)見的,清晰地定義問題,認(rèn)清數(shù)據(jù)挖掘的目的是重要的。
圖1 教務(wù)管理系統(tǒng)不同角度分析
2.1 數(shù)據(jù)采集、清理與轉(zhuǎn)化
大學(xué)課程之間有一定的關(guān)聯(lián)和前后順序關(guān)系,因此分析學(xué)生成績與課程之間的關(guān)系為本文重點研究的內(nèi)容。本文分析數(shù)據(jù)取自本校計算機(jī)學(xué)院軟件工程三本學(xué)生121名學(xué)生成績,課程信息如表1,專業(yè)必修課選擇高級語言程序設(shè)計,公共課選取大學(xué)計算機(jī)基礎(chǔ)、高數(shù)以及線性代數(shù),同時也取其高考成績作為先行成績,應(yīng)用關(guān)聯(lián)規(guī)則算法分析先修課成績優(yōu)良對后修課成績的影響程度。
學(xué)生的成績信息從教務(wù)管理系統(tǒng)采集,初步收集時為EXCEL表,如圖2,需要進(jìn)行數(shù)據(jù)清理如去除空缺記錄,以及進(jìn)行數(shù)據(jù)轉(zhuǎn)換,對數(shù)據(jù)進(jìn)行規(guī)格化操作,將數(shù)據(jù)變成統(tǒng)一的格式,以適合數(shù)據(jù)挖掘。
Apriori算法只能處理布爾變量,需把數(shù)值型數(shù)據(jù)轉(zhuǎn)換為由項集組成的事務(wù)數(shù)據(jù)表。因為挖掘的是各課程之間的優(yōu)秀關(guān)系,同樣使用創(chuàng)建命名計算的方法,成績在60分以上的置為“及格”,表示事務(wù)中存在該項,將成績字段值在60分以下的置為“不及格”。建命名計算后的表的數(shù)據(jù)如圖3.
圖2 學(xué)生成績信息初始表 圖3 創(chuàng)建命名計算后數(shù)據(jù)視圖
2.2 數(shù)據(jù)分析
根據(jù)數(shù)據(jù)特點和應(yīng)用需要,設(shè)定最小支持度20%,最小置信度60%。算法參數(shù):Min_Support=0.2,Min_Probability=0.6。
圖4 專業(yè)課成績的關(guān)聯(lián)挖掘概率及重要性顯示
圖4顯示了滿足要求的關(guān)聯(lián)規(guī)則,顯示的規(guī)則已經(jīng)按照概率排序,規(guī)則從上到下順序編號為1-7。這些規(guī)則的概率和重要性分?jǐn)?shù)。重要性(Importance)也稱為興趣度分?jǐn)?shù)或者增益,設(shè)計重要性分?jǐn)?shù)的額目的是測試規(guī)則的有效性。重要性分?jǐn)?shù)越高,則規(guī)則的質(zhì)量越好。重要性為0表示,A和B之間沒有關(guān)聯(lián)。正的重要性分?jǐn)?shù)表示,當(dāng)A為真時,B的概率會上升。負(fù)的重要性分?jǐn)?shù)表示,當(dāng)A為真時,B的概率為下降。說明線性代數(shù)取得及格(60分以上)的成績和高級語言程序設(shè)計成績在及格以上有很高程度的聯(lián)系,特別是規(guī)則4高數(shù)成績在及格的話,有94.4%的概率高級語言程序設(shè)計成績?yōu)榧案瘛?/p>
3 總結(jié)
對于高校來說,學(xué)生信息的數(shù)據(jù)量可能達(dá)到幾萬甚至幾十萬,我們需要考慮如何利用智能算法來挖掘潛在的知識。通過本文的研究,初步實現(xiàn)了數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的應(yīng)用。課程之間有一定的關(guān)聯(lián)和前后順序關(guān)系的,分析學(xué)生成績與課程之間的關(guān)系,得出了一些有價值的規(guī)則,以此可對教學(xué)計劃進(jìn)行合理的安排,學(xué)生也可根據(jù)自身情況合理選課。
參考文獻(xiàn):
[1]Tan,Steinbach,Kumar.Introduction to Data Mining,2004.
[2]Hartigan,J.A.(1975).Clustering Algorithms.Wiley.MR0405726.ISBN 0-471-35645-X.
[3]韓家煒.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007,3.
[4]鄒競.基于FP-growth算法的課程相關(guān)性的關(guān)聯(lián)規(guī)則研究[J].計算機(jī)與數(shù)字工程,2009,6.
作者簡介:李瑩瑩,女,河南理工大學(xué)計算機(jī)學(xué)院,助教,碩士,研究方向:計算機(jī)網(wǎng)絡(luò),數(shù)據(jù)挖掘;張一民,男,河南理工大學(xué)在職研究生,研究方向:軟件,數(shù)據(jù)挖掘。
關(guān)鍵詞:數(shù)據(jù)挖掘 高校教務(wù)管理 實踐應(yīng)用
中圖分類號:TP311.1 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2013)04-0145-01
隨著現(xiàn)代信息技術(shù)在各領(lǐng)域各行業(yè)的滲透與應(yīng)用,給現(xiàn)代人們的生活與工作方式都帶來了極大的改變。高校也不例外,在近年來高等教育信息化建設(shè)的背景下,諸多高校積極推進(jìn)數(shù)字化校園的建設(shè)。教務(wù)管理是高校常規(guī)管理工作中的核心組成部分,也是各類數(shù)據(jù)和信息龐大的聚集地。因此如何運用現(xiàn)代信息技術(shù)來提高高校教務(wù)管理工作效率,更好地為學(xué)校發(fā)展服務(wù),是一項賦有現(xiàn)實意義的課題?;诖耍P者結(jié)合工作實踐,就數(shù)據(jù)挖掘技術(shù)在高校教務(wù)管理中的應(yīng)用,作以下探討與分析:
1 數(shù)據(jù)挖掘概述
以計算機(jī)為基礎(chǔ)的現(xiàn)代信息技術(shù)的發(fā)展,推動了各種新技術(shù)、新手段的應(yīng)用。數(shù)據(jù)挖掘(Data Mining)是一門融合了機(jī)器學(xué)習(xí)、統(tǒng)計分析和數(shù)據(jù)庫技術(shù)的作為一門交叉學(xué)科。其應(yīng)用價值在于把對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到有價值信息的挖掘,從而為決策提供支持。作為一種全新的信息處理技術(shù),數(shù)據(jù)挖掘已被廣泛應(yīng)用于各行業(yè)、各領(lǐng)域,并展現(xiàn)出其強(qiáng)大的應(yīng)用優(yōu)勢。在已有的研究和實踐證明,在高校教務(wù)管理系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘技術(shù)有助于提高工作效率,能為教務(wù)管理決策提供有益幫助,從而推動高校教育教學(xué)工作的快速發(fā)展。
2 系統(tǒng)分析及設(shè)計
從當(dāng)前多數(shù)高校教務(wù)管理系統(tǒng)的建設(shè)實踐來看,一般的教學(xué)管理系統(tǒng)都屬于操作型的管理系統(tǒng),往往只具備基本的查詢和分析功能,而在決策支持方面局限性很大。比如只能對某課程考試學(xué)生的及格率,或者某一屆學(xué)生在共同英語、計算機(jī)考試的通過率等。教師和學(xué)生的基本情況進(jìn)行查詢或分析功能。并且這種數(shù)據(jù)的顯示或報告也是二維報表形式,教務(wù)管理工作者難以從中發(fā)現(xiàn)其動態(tài)變化。由于高校教務(wù)管理信息會隨時間的推移而不斷積累,因此這些數(shù)據(jù)會不斷的堆積,而得不到有效利用,因此,在教務(wù)管理系統(tǒng)決策過程中其利用率是極低的。在進(jìn)行高校教務(wù)管理系統(tǒng)的數(shù)據(jù)挖掘之前,需要確定合適的數(shù)據(jù)挖掘組織結(jié)構(gòu)。當(dāng)前應(yīng)用較多的數(shù)據(jù)挖掘體系結(jié)構(gòu)模式是采取用戶訪問層、業(yè)務(wù)邏輯層和數(shù)據(jù)層三層構(gòu)架模式,在各層之間數(shù)據(jù)和消息的傳輸借助相關(guān)接口來得以實現(xiàn)。
3 數(shù)據(jù)挖掘技術(shù)在教務(wù)系統(tǒng)中的應(yīng)用
基于上述目的,那么在具體的高校教務(wù)管理中,采取怎樣的數(shù)據(jù)挖掘技術(shù)手段就是應(yīng)當(dāng)解決的問題。筆者結(jié)合實踐經(jīng)驗,就應(yīng)用分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析等數(shù)據(jù)挖掘技術(shù)手段在教務(wù)管理信息系統(tǒng)中的應(yīng)用,作以下介紹:
3.1 分類分析法的實踐應(yīng)用
當(dāng)前各高校推動教育教學(xué)改革的過程中,人才培養(yǎng)方案是其重要構(gòu)成內(nèi)容。高校如何根據(jù)學(xué)生的實際情況,結(jié)合人才市場的需求,從而制定出科學(xué)合理的培養(yǎng)方案,是諸多高校亟需解決的問題。而在這一決策過程中,就可以利用數(shù)據(jù)挖掘的分類分析法了。具體來說,可以對學(xué)生的性格特征、學(xué)習(xí)興趣與方法、課程設(shè)置、教學(xué)資源配置等信息數(shù)據(jù)建立起一個量的模型,進(jìn)而對其進(jìn)行分析、歸納和總結(jié),找出它們共同的特點,按照分類的模式將其進(jìn)行劃分、歸類,將學(xué)生個性化培養(yǎng)方案概括到某個給定的范圍,既可以為學(xué)生自主性個性化學(xué)習(xí)提供更為科學(xué)有效的指導(dǎo),又可以對學(xué)校的學(xué)科課程設(shè)置提供建設(shè)性意見,從而更好地實現(xiàn)培養(yǎng)多樣化、個性化、創(chuàng)新性人才的培養(yǎng)目標(biāo)。
3.2 關(guān)聯(lián)分析的實踐應(yīng)用
關(guān)聯(lián)分析是用來發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式。所發(fā)現(xiàn)的模式通常用蘊涵規(guī)則或特征子集的形式表示。在高校教務(wù)管理系統(tǒng)中,運用關(guān)聯(lián)分析可以獲得良好的效果。以教學(xué)計劃編制為例,可以通過對學(xué)生選課關(guān)聯(lián)關(guān)系進(jìn)行識別,以尋求最佳排課方式;同時還可以對排課的數(shù)據(jù)進(jìn)行分析,以優(yōu)化課時的具體分配問題。
3.3 聚類分析算法的實踐應(yīng)用
聚類分析其實是無監(jiān)督分類,其目的在于實事求是地按被處理對象的特征分類,有相同特征的對象被歸為一類。高校教務(wù)管理實踐中,運用聚類分析算法,可以在命題質(zhì)量分析方面獲得良好的應(yīng)用效果。在高校教學(xué)管理中,課程的命題考試是在很大程度上體現(xiàn)了該課程的教學(xué)情況如何,也反映了學(xué)生學(xué)習(xí)情況和達(dá)標(biāo)情況是怎樣。因此,在進(jìn)行命題考試完成以后,就要對成績進(jìn)行分析。按照一般規(guī)律,學(xué)生學(xué)習(xí)成績應(yīng)呈正態(tài)分布。只有當(dāng)分?jǐn)?shù)較高和分?jǐn)?shù)較低兩頭比例小,中間部分比例大,說明這次命題的試卷質(zhì)量好,試題編制較為成功。
3.4 異常檢測的應(yīng)用實踐
異常檢測的任務(wù)是識別其特征顯著不同于其他數(shù)據(jù)的觀測值。這樣的觀測值稱為異常點或離群點。通過異常檢測算法,就能發(fā)現(xiàn)系統(tǒng)中存在的異常點,有效地避免出現(xiàn)對信息的誤判或遺漏的現(xiàn)象。在高校教務(wù)管理實踐中,應(yīng)用異常檢測來行學(xué)籍預(yù)警,就能取得良好的效果。比如我們可以對教務(wù)系統(tǒng)里面學(xué)生對應(yīng)的信息特征進(jìn)行提取,類似于“登陸教務(wù)系統(tǒng)的頻率”、“考試成績”、“補考/缺考記錄”、“網(wǎng)上選課記錄”等數(shù)據(jù),當(dāng)特征值低于某一閾值的時候,學(xué)生即有可能處于“離校而未辦理學(xué)籍”等異常狀態(tài)。以此來加強(qiáng)對學(xué)生學(xué)籍問題的管理。
4 結(jié)語
綜上所述,由于高校教務(wù)管理系統(tǒng)的數(shù)據(jù)隨時間的推移而不斷的增長,致使這一數(shù)據(jù)越來越龐大,越來越復(fù)雜。面對這種情況,運用數(shù)據(jù)挖掘技術(shù)能是其中蘊含有價值的關(guān)聯(lián)起來,發(fā)現(xiàn)其中的利用價值,從而更好地服務(wù)于高校發(fā)展的需要。這就需要高校在這方面引起足夠的重視,采取可行的措施,進(jìn)而不斷提高數(shù)據(jù)挖掘的技術(shù)水平,以實現(xiàn)推動高校的快速、健康發(fā)展。
參考文獻(xiàn)
[1]Dunja M.Text-Learning and Intelligent Agents.1998.
關(guān)鍵詞 數(shù)據(jù)挖掘 預(yù)警模型 關(guān)聯(lián)規(guī)則 決策樹
中圖分類號:TP315 文獻(xiàn)標(biāo)識碼:A DOI:10.16400/ki.kjdks.2015.02.074
Dynamic Warning Model of Students' Achievement
BAI Jin, LIU Linjing, ZHOU Jianghui
(Business Information College, Shanghai University of International Business and Economics, Shanghai 201600)
Abstract Through the use of the Senate Higher Educational Administration Management Information storage, development and design based on student achievement data mining dynamic warning model; the introduction of data mining association rules and decision tree method using Apriori algorithm and ID3 algorithm separately on student achievement data mining in order to find the intrinsic link between the course and they were used as association rules for student achievement warning, final comparison of the two algorithms, selecting optimum algorithm model as the final score early warning models. The warning model is beneficial for students to make early warning, to improve student achievement with good results.
Key words data mining; warning model; association rules; decision tree
0 引言
隨著高校教務(wù)管理信息系統(tǒng)的廣泛應(yīng)用,高校擁有大量學(xué)生的考試成績和教務(wù)數(shù)據(jù),國內(nèi)已有一些研究者以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ)面向這些信息展開了數(shù)據(jù)挖掘工作,如魏順平在《學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時代下教育數(shù)據(jù)的價值》一文中介紹了教育數(shù)據(jù)挖掘在我國的發(fā)展歷程及相關(guān)的概念,并提到了5類教育數(shù)據(jù)挖掘方法;①葉福蘭則利用數(shù)據(jù)挖掘技術(shù)在高校已有的教育數(shù)據(jù)上給出了學(xué)生成績預(yù)警的分析,尋找不及格課程間內(nèi)在聯(lián)系、可能聯(lián)系和關(guān)鍵因素;②劉斌、陳依潼則利用K-均值聚類方法分析學(xué)生評價方式;③以及王璇利用Apriori算法分析大學(xué)生心理狀況。④
1 基于數(shù)據(jù)挖掘技術(shù)的成績預(yù)警模型
預(yù)警主要分為兩個部分:規(guī)則產(chǎn)生和規(guī)則匹配。規(guī)則產(chǎn)生部分,預(yù)警模型接收學(xué)生成績訓(xùn)練集,從中依靠內(nèi)部算法獲取符合要求的成績預(yù)警規(guī)則。規(guī)則匹配部分,預(yù)警模型接受待處理學(xué)生成績和課程,而后根據(jù)規(guī)則產(chǎn)生部分產(chǎn)生的規(guī)則,進(jìn)行逐一匹配、篩選,最后輸出預(yù)警信息。
如圖1所示,基于數(shù)據(jù)挖掘的成績預(yù)警模型由數(shù)據(jù)輸入/輸出接口,數(shù)據(jù)預(yù)處理模塊、預(yù)警規(guī)則挖掘模塊、成績預(yù)警規(guī)則庫和預(yù)警模塊5部分組成。其中,預(yù)警規(guī)則挖掘模塊是該模型的核心部分,它負(fù)責(zé)從輸入的訓(xùn)練集中挖掘預(yù)警規(guī)則,并將符合條件的規(guī)則儲存到預(yù)警規(guī)則庫中。預(yù)警模塊式將從數(shù)據(jù)預(yù)處理模塊里的學(xué)生成績和課程信息,與成績預(yù)警規(guī)則庫中的規(guī)則匹配,再根據(jù)已設(shè)定的預(yù)警條件比較,繼而決定是否生成預(yù)警信息。數(shù)據(jù)輸入/輸出接口、預(yù)警模塊可以實現(xiàn)實時的學(xué)生成績預(yù)警信息,到達(dá)動態(tài)預(yù)警的目的。
圖1 基于數(shù)據(jù)挖掘的成績預(yù)警模型
2 基于關(guān)聯(lián)規(guī)則的成績預(yù)警模型
2.1 關(guān)聯(lián)規(guī)則和 Apriori算法
設(shè) = {,,……,}是項(Item)的集合。記為事務(wù)的集合,事務(wù)是項的集合,并且 。對應(yīng)每一個事務(wù)有唯一的標(biāo)識,如事務(wù)號,記作。設(shè)是一個中項的集合,如果 ,那么稱事務(wù)包含。項的集合稱為項集。包含個項的項集稱為項集。項集的出現(xiàn)頻率是指包含該項集的事務(wù)數(shù),簡稱為項集的頻率或支持度計數(shù)。
定義1 一個關(guān)聯(lián)規(guī)則是形如 的蘊涵式,這里 , ,并且∩= 。
定義2 規(guī)則 在事務(wù)數(shù)據(jù)中具有支持度,表示支持度S(support)是事務(wù)集中同時包含 和的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為support( ),即:
support( ) = O{:∪ ,}O/OO?00% = %
定義3 規(guī)則 在事務(wù)集中的置信度(confidence)是指包含和的事務(wù)數(shù)與包含的事務(wù)數(shù)之比,記為confidence( ),即:
confidence( ) =O{:∪ ,}O/O: ,O?00% = %
定義4 同時滿足最小支持度(min_sup)和最小可信度(min_conf)的規(guī)則稱為關(guān)聯(lián)規(guī)則,即S( )>min_sup且C( )>min_conf成立時,規(guī)則 稱為強(qiáng)關(guān)聯(lián)規(guī)則。
Apriori算法是關(guān)聯(lián)規(guī)則的重要方法,是挖掘布爾型頻繁項目集的算法。它使用一種稱為逐層搜索的迭代方法,“K-項集”用于探索“K+1-項集”。這是一個基于兩階段頻繁集思想的方法,將關(guān)聯(lián)規(guī)則算法的設(shè)計分為兩個子問題:①找到所有支持度大于min_sup的項集,即頻繁項集。②使用第一步找到的頻繁項集找到置信度大于或 最小置信度min_conf的關(guān)聯(lián)規(guī)則。
2.2 基于關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)
2.2.1 數(shù)據(jù)預(yù)處理
由于目前高校成績數(shù)據(jù)庫中存貯的成績信息主要是百分制的成績和五分制成績?yōu)橹?,所以需將實驗?shù)據(jù)進(jìn)行處理、變換。本文基于關(guān)聯(lián)規(guī)則的成績預(yù)警模型方法是將學(xué)生成績變?yōu)殡x散的布爾類型數(shù)據(jù)(0,1)。具體為:將學(xué)生成績大于該科平均分的,記為0;小于該科平均分的,記為1。再添加輔助列“預(yù)警”,如果學(xué)生成績存在不及格科目,記為“Y”;不存在不及格科目的,記為“N”。一般而言,數(shù)據(jù)變換的過程需要經(jīng)歷數(shù)據(jù)選擇、數(shù)據(jù)清洗(多次成績處理和缺失成績處理)、數(shù)據(jù)集成和變換等步驟。
2.2.2 基于關(guān)聯(lián)規(guī)則挖掘結(jié)果分析
實現(xiàn)本模型的軟件環(huán)境為操作系統(tǒng)為Windows XP,采用Oracle 數(shù)據(jù)庫管理系統(tǒng)提取學(xué)生成績,并使用SPSS Clementine軟件進(jìn)行數(shù)據(jù)挖掘工作。根據(jù)Clementine軟件的特點,本實驗選擇處理時將低于平均成績記為“1”,高于平均成績的記為“0”。這樣的目的是使本次分析出的關(guān)聯(lián)規(guī)則方向為:對于學(xué)生成績不及格情況下,各個課程之間的關(guān)聯(lián)性。
表1 挖掘出的規(guī)則數(shù)和類規(guī)則平均預(yù)測準(zhǔn)確率
以教務(wù)管理系統(tǒng)中導(dǎo)出信息管理與信息系統(tǒng)2010級和2011級部分學(xué)生3年的成績?yōu)橛?xùn)練集,以其余學(xué)生3年成績?yōu)闇y試集Dtest,用以挖掘課程和學(xué)生成績之間的關(guān)聯(lián)關(guān)系。并最終,選擇信息管理與信息系統(tǒng)的10門必修課程成績作為最后實驗數(shù)據(jù)。10門課程為:數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,數(shù)據(jù)庫原理與應(yīng)用,操作系統(tǒng),C++面向?qū)ο蟪绦蛟O(shè)計,程序設(shè)計基礎(chǔ)(英),微積分(I),微積分(II),概率論,線性代數(shù)。
設(shè)={,,… }為類關(guān)聯(lián)規(guī)則的規(guī)則集。將已經(jīng)產(chǎn)生的關(guān)聯(lián)規(guī)則 ,記為(,),得到類關(guān)聯(lián)規(guī)則:(,) ,為類別。記為類別為“Y”的數(shù)據(jù)集合。定義類規(guī)則:(,)的預(yù)警準(zhǔn)確率為(),類規(guī)則集的預(yù)測準(zhǔn)確率為()。
(公式1)P()=
(公式2)()=
經(jīng)過反復(fù)試驗、驗證,分別設(shè)置最小支持度分別為0.40、0.37、0.34,最小置信度為0.90、0.87和0.84,在此參數(shù)條件設(shè)置下挖掘類規(guī)則集預(yù)警準(zhǔn)確率。
上文所提出的模型從上述實驗結(jié)果看,準(zhǔn)確性在60%~70%之間。實驗結(jié)果表明,該模型及其方法在實踐上是有效的。
3 基于決策樹算法的成績預(yù)警模型
3.1 決策樹算法
決策樹算法是一種典型的分類和預(yù)測方法,也是一種逼近離散函數(shù)值的方法。它具有算法思想簡單,識別樣本效率高,對噪聲數(shù)據(jù)有很好的健壯性等優(yōu)點。決策樹使用樣本的自身屬性作為節(jié)點,用屬性取值作為分支的樹型結(jié)構(gòu)。它的根節(jié)點是所有樣本中信息量最大的屬性。ID3算法是機(jī)器學(xué)習(xí)領(lǐng)域中最具有影響力的決策樹方法之一,采用自頂向下的遞歸方法C4.5是ID3算法的改進(jìn)算法,它增加了:能夠?qū)B續(xù)屬性離散化處理等變化。而C5.0是C4.5應(yīng)用于大數(shù)據(jù)集上的分類算法,主要在執(zhí)行效率和內(nèi)存使用方面進(jìn)行了改進(jìn)。本文采用C5.0算法進(jìn)行挖掘分析。
3.2 基于C5.0算法的發(fā)現(xiàn)
(1)數(shù)據(jù)預(yù)處理。將如表1所示的原始數(shù)據(jù),將成績分為3種:“0<成績<60”記為“差”;將“60<=成績<80”記為“一般”;將“成績=>80”記為“好”。并增加一列“預(yù)警”,將學(xué)生成績存在掛科的記為“Y”;不存在掛科的記為“N”。
(2)基于C5.0算法挖掘結(jié)果分析。使用SPSS Clementine軟件進(jìn)行分析,選擇將決策樹進(jìn)行剪枝,將科目:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘和C++面向?qū)ο蟪绦蛟O(shè)計和操作系統(tǒng)從決策樹中剪去。
最后,從決策樹中抽取的規(guī)則為(表2):
通過表2可以分析出,微積分A(I)和微積分A(II)對學(xué)生影響較大,當(dāng)該科為“一般”或者“好”時,學(xué)生不屬于預(yù)警生的概率較大。當(dāng)學(xué)生數(shù)據(jù)結(jié)構(gòu)不及格時情況時,學(xué)生有很大可能成為預(yù)警生。因此學(xué)校在日常教學(xué)活動中,應(yīng)特別關(guān)注學(xué)生這幾門課程的學(xué)習(xí)。
(3)準(zhǔn)確性測試。設(shè)={,,… }為從決策樹中抽取的規(guī)則的規(guī)則集。設(shè),,…,為課程名,有個取值:{,,…,}。={,,…}為類別的集合。定義規(guī)則: = ,…, = ,then 的預(yù)警準(zhǔn)確率為,類規(guī)則集的預(yù)測準(zhǔn)確率為。
(公式3)=
(公式4)()=
通過訓(xùn)練集Dtest,本模型通過上述數(shù)據(jù)可達(dá)到60%的預(yù)警準(zhǔn)確率。實驗結(jié)果也表明,基于決策樹技術(shù)的學(xué)生動態(tài)成績預(yù)警模型在實踐上是有效的。但據(jù)歷史經(jīng)驗來看,C5.0算法優(yōu)勢在與準(zhǔn)確性高,而本次試驗準(zhǔn)確率卻為60%,初步分析是由于試驗數(shù)據(jù)有限,對準(zhǔn)確性測試過程產(chǎn)生了一些影響。
4 結(jié)論
在將兩種方法的輸出轉(zhuǎn)化為統(tǒng)一輸出后,即兩種方法輸出都為:預(yù)警類別,因此,可直接進(jìn)行準(zhǔn)確性比較。通過比較上述兩種模型和方法,發(fā)現(xiàn)選用Apriori算法,模型預(yù)警率較高。而且C5.0算法預(yù)警率較低。對數(shù)據(jù)的噪聲較為敏感,訓(xùn)練集中的一些錯誤會對實驗結(jié)果產(chǎn)生較大影響。當(dāng)C5.0算法訓(xùn)練集增加時,C5.0的決策樹也會變化,所以當(dāng)學(xué)生成績訓(xùn)練集變化時,成績決策樹變化,從而使預(yù)警規(guī)則庫發(fā)生不斷變化,這對于成績預(yù)警過程來說,是不方便的。
通過設(shè)計基于關(guān)聯(lián)規(guī)則的成績動態(tài)預(yù)警模型,初步證明了基于數(shù)據(jù)挖掘的預(yù)警技術(shù)是有效的。隨著對應(yīng)用領(lǐng)域的不斷深入開發(fā),對基于數(shù)據(jù)挖掘的預(yù)警技術(shù)的深入研究,相信該模型、機(jī)制具有更廣闊的前景。
注釋
① 魏順平.學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時代下教育數(shù)據(jù)的價值.現(xiàn)在教育技術(shù),2013(2).
② 葉福蘭.基于數(shù)據(jù)挖掘的高校學(xué)生成績預(yù)警狀況分析.長春師范學(xué)院學(xué)報(自然科學(xué)版),2013(5).