0
首頁 精品范文 遺傳學(xué)條件概率

遺傳學(xué)條件概率

時間:2023-11-30 11:23:11

開篇:寫作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇遺傳學(xué)條件概率,希望這些內(nèi)容能成為您創(chuàng)作過程中的良師益友,陪伴您不斷探索和進(jìn)步。

第1篇

關(guān)鍵詞:數(shù)據(jù)挖掘;圖書館;數(shù)字圖書館

中圖分類號:G250 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-291X(2012)27-0241-03

數(shù)據(jù)挖掘技術(shù)是信息世界發(fā)展所得的一種新興事務(wù),應(yīng)用領(lǐng)域越來越廣。從早期的商業(yè)應(yīng)用,發(fā)展到科學(xué)研究、金融行業(yè)、教育教學(xué)等多個領(lǐng)域。并且有了許多成功的應(yīng)用:在科學(xué)實(shí)驗(yàn)中,有專家應(yīng)用決策樹和基于規(guī)則的方法發(fā)現(xiàn)了新的類星體;在零售行業(yè),貨籃分析幫助商店確定貨架布局以促進(jìn)銷售;在金融領(lǐng)域,孤立點(diǎn)的發(fā)現(xiàn)用以預(yù)測和預(yù)防可疑信用卡交易、惡意透支等;在銷售行業(yè),用來提高銷售的成功率;在制造業(yè),用來控制產(chǎn)品生產(chǎn),降低次品率。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘技術(shù)是一門交叉學(xué)科,涉及數(shù)據(jù)庫、統(tǒng)計學(xué)、人工智能和機(jī)器學(xué)習(xí)等多個領(lǐng)域。“數(shù)據(jù)挖掘”概念最早是由Usama Fayaad 1995年提出的。因?yàn)閿?shù)據(jù)挖掘技術(shù)所涉及的領(lǐng)域比較廣,所以現(xiàn)在還不能有一個能包括所有領(lǐng)域的全面的定義。但是比較完整的定義要算是從技術(shù)方面給其定義的。數(shù)據(jù)挖掘的技術(shù)定義是這樣描述的:數(shù)據(jù)挖掘(Data Mining)又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單地說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。

這里要說明的是,數(shù)據(jù)挖掘的目的并不僅僅是在數(shù)據(jù)庫中查找記錄。它跟信息檢索的任務(wù)是有區(qū)別的。數(shù)據(jù)挖掘和信息檢索的相同點(diǎn)是從數(shù)據(jù)抽取數(shù)據(jù)和信息。不同之處在于數(shù)據(jù)挖掘?qū)ふ椰F(xiàn)象之間事先未知的關(guān)系和關(guān)聯(lián)。也就是說在數(shù)據(jù)挖掘任務(wù)進(jìn)行之前我們是沒法兒預(yù)測結(jié)果的。信息檢索是帶有一定目的、用戶預(yù)先可以感知至少是可以在腦海中想象一個抽象的結(jié)果的而檢索的結(jié)果也不會與用戶事先想象的結(jié)果有很大差別。信息檢索是需要用戶明確地提出查詢要求。通俗地來講是信息檢索的目的是幫助用戶從大量的文件中查找到其想要的文檔而數(shù)據(jù)挖掘是為了揭示文件中所隱藏的知識。這兩個是相輔相成的。我們可以使用數(shù)據(jù)挖掘研究出來的結(jié)果來提高信息檢索的精確度提高檢索結(jié)果的“親近性”,從而使信息檢索系統(tǒng)有更高的境界。

二、數(shù)據(jù)挖掘中的幾種重要算法

(一)關(guān)聯(lián)規(guī)則算法

關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘是幫助發(fā)現(xiàn)大量數(shù)據(jù)庫中項(xiàng)集之間的關(guān)聯(lián)關(guān)系。目前這項(xiàng)技術(shù)已成為數(shù)據(jù)挖掘中最成熟、最重要、最活躍的研究內(nèi)容。這種算法已發(fā)展到如教育、科研、醫(yī)學(xué)等各大領(lǐng)域。

1.關(guān)聯(lián)規(guī)則算法的定義

設(shè)I={i1,i2…,im}為所有項(xiàng)目的集合,設(shè)A是一個由項(xiàng)目構(gòu)成的集合,稱為項(xiàng)集。事務(wù)T是一個項(xiàng)目子集,每一個事務(wù)具有唯一的事務(wù)標(biāo)識Tid。事務(wù)T包含項(xiàng)集A,當(dāng)且僅當(dāng)AT。如果項(xiàng)集A中包含k個項(xiàng)目,則稱其為k項(xiàng)集。D為事務(wù)數(shù)據(jù)庫,項(xiàng)集A在事務(wù)數(shù)據(jù)庫D中出現(xiàn)的次數(shù)占D中總事務(wù)的百分比叫做項(xiàng)集的支持度。如果項(xiàng)集的支持度超過用戶給定的最小支持度閾值,就稱該項(xiàng)集是頻繁項(xiàng)集。

關(guān)聯(lián)規(guī)則就是形如XY的邏輯蘊(yùn)涵關(guān)系,其中XI,YI且XY=Φ,X稱作規(guī)則的前件,Y是結(jié)果,對于關(guān)聯(lián)規(guī)則XY,存在支持度和信任度。

支持度是指規(guī)則中所出現(xiàn)模式的頻率,如果事務(wù)數(shù)據(jù)庫有s%的事務(wù)包含XY,則稱關(guān)聯(lián)規(guī)則XY在D中的支持度為s%,實(shí)際上,可以表示為概率P(XY),即support(XY)=

P(XY)。信任度是指蘊(yùn)涵的強(qiáng)度,即事務(wù)D中c%的包含X的交易同時包含XY。若X的支持度是support(x),規(guī)則的信任度為即為:support(XY)/support(X),這是一個條件概率

P(Y|X),即confidence(XY)= P(Y|X)。

2.關(guān)聯(lián)規(guī)則分類

關(guān)聯(lián)規(guī)則有很多的分類方法,基于規(guī)則中處理的變量的類別,可以分為布爾型和數(shù)值型關(guān)聯(lián)規(guī)則。基于規(guī)則中抽象層次,可以分為單層和多層關(guān)聯(lián)規(guī)則。基于規(guī)則中涉及的數(shù)據(jù)維數(shù),可以分為單維和多維關(guān)聯(lián)規(guī)則。還有時態(tài)、加權(quán)、多支持度、負(fù)關(guān)聯(lián)和混合關(guān)聯(lián)規(guī)則等。

在圖書館數(shù)據(jù)挖掘應(yīng)用中,可以使用關(guān)聯(lián)規(guī)則算法對圖書館中讀者借閱數(shù)據(jù)進(jìn)行挖掘,挖掘出具有置信度和支持度的關(guān)聯(lián)規(guī)則從而快速挖掘出讀者借閱數(shù)據(jù)中的關(guān)聯(lián)關(guān)系,最終可以達(dá)到發(fā)現(xiàn)學(xué)科間的隱性關(guān)聯(lián)這樣一個目的。

(二)遺傳算法

遺傳算法是模擬達(dá)爾文的遺傳選擇和自然淘汰的生物進(jìn)化過程的計算模型。當(dāng)前,遺傳算法已表現(xiàn)出良好的應(yīng)用前景,遺傳算法的兩個主要特點(diǎn)是群體搜索策略和群體中個體之間的信息交換,它實(shí)際上是模擬由個體組成群體的整體學(xué)習(xí)過程,其中每個個體都是給定問題搜索空間的一個解點(diǎn)。

亚洲精品无码久久久久久久性色,淫荡人妻一区二区三区在线视频,精品一级片高清无码,国产一区中文字幕无码
曰肥老太视频日本 | 日本特级婬片免费看 | 中文字幕亚洲欧美在线不卡 | 亚洲一区二区三区四区在线观看 | 亚洲2020天天堂在线 | 亚洲顶级片在线免费播放 |