數據挖掘技術(shù)在科技期刊網(wǎng)站中的應用論文
隨著(zhù)互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,學(xué)術(shù)研究環(huán)境較以前更加開(kāi)放,對傳統的科技出版業(yè)提出了開(kāi)放性、互動(dòng)性和快速性的要求; 因此,以信息技術(shù)為基礎的現代數字化出版方式對傳統的科技出版業(yè)產(chǎn)生著(zhù)深刻的影響。為了順應這一趨勢,不少科技期刊都進(jìn)行了數字化建設,構建了符合自身情況、基于互聯(lián)網(wǎng)B /S 結構的稿件處理系統。
以中華醫學(xué)會(huì )雜志社為代表的部分科技期刊出版集團均開(kāi)發(fā)使用了發(fā)行系統、廣告登記系統、在線(xiàn)銷(xiāo)售系統以及站。這些系統雖然積累了大量的原始用戶(hù)業(yè)務(wù)數據; 但從工作系統來(lái)看,由于數據本身只屬于編輯部的業(yè)務(wù)數據,因此一旦相關(guān)業(yè)務(wù)工作進(jìn)行完畢,將很少再對這些數據進(jìn)行分析使用。
隨著(zhù)目前人工智能和機器學(xué)習技術(shù)的發(fā)展,研究人員發(fā)現利用最新的數據挖掘方法可以對原始用戶(hù)業(yè)務(wù)數據進(jìn)行有效分析和學(xué)習,找出其中數據背后隱含的內在規律。這些有價(jià)值的規律和寶貴的經(jīng)驗將對后續科技期刊經(jīng)營(yíng)等工作提供巨大的幫助。
姚偉欣等指出,從STM 期刊出版平臺的技術(shù)發(fā)展來(lái)看,利用數據存取、數據管理、關(guān)聯(lián)數據分析、海量數據分析等數據挖掘技術(shù)將為科技期刊的出版和發(fā)行提供有力的幫助。通過(guò)使用數據挖掘( data mining) 等各種數據處理技術(shù),人們可以很方便地從大量不完全且含有噪聲或相對模糊的實(shí)際數據中,提取隱藏在其中有價(jià)值的信息,從而對后續科技期刊出版工作起到重要的知識發(fā)現和決策支持的作用。
1 數據挖掘在科技期刊中應用的現狀
傳統的數據庫對數據的處理功能包括增、刪、改、查等。這些技術(shù)均無(wú)法發(fā)現數據內在的關(guān)聯(lián)和規則,更無(wú)法根據現有數據對未來(lái)發(fā)展的趨勢進(jìn)行預測。現有數據挖掘的任務(wù)可以分為對數據模型進(jìn)行分類(lèi)或預測、數據總結、數據聚類(lèi)、關(guān)聯(lián)規則發(fā)現、序列模式發(fā)現、依賴(lài)關(guān)系發(fā)現、異常或例外點(diǎn)檢測以及趨勢發(fā)現等,但目前國內科技期刊行業(yè)利用數據挖掘方法進(jìn)行大規模數據處理仍處在起步階段。張品純等對中國科協(xié)所屬的科技期刊出版單位的現狀進(jìn)行分析后發(fā)現,中國科協(xié)科技期刊出版單位多為單刊獨立經(jīng)營(yíng),單位的規模較小、實(shí)力較弱,多數出版單位不具備市場(chǎng)主體地位。這樣就導致國內大部分科技期刊既沒(méi)有能力進(jìn)行數據挖掘,也沒(méi)有相應的數據資源準備。以數據挖掘技術(shù)應用于期刊網(wǎng)站為例,為了進(jìn)行深入的數據分析,期刊經(jīng)營(yíng)人員需要找到稿件與讀者之間、讀者群體之間隱藏的內在聯(lián)系。目前,數據挖掘的基本步驟為: 1) 明確數據挖掘的對象與目標;2) 確定數據源; 3) 建立數據模型; 4) 建立數據倉庫; 5)數據挖掘分析; 6) 對象與目標的數據應用和反饋。
2 期刊數據的資源整合
編輯部從稿件系統、發(fā)行系統、廣告系統、站等各個(gè)系統中將相關(guān)數據進(jìn)行清洗、轉換和整理,然后加載到數據倉庫中。進(jìn)一步,根據業(yè)務(wù)應用的范圍和緊密度,建立相關(guān)數據集市。期刊數據資源的整合過(guò)程從數據體系上可分為數據采集層、數據存儲處理層和數據展現層。
要獲得能夠適合企業(yè)內部多部門(mén)均可使用、挖掘和分析的數據,可以從業(yè)務(wù)的關(guān)聯(lián)性分析數據的準確性、一致性、有效性和數據的內在關(guān)聯(lián)性。
3 期刊數據的信息挖掘
信息挖掘為了從不同種類(lèi)和形式的業(yè)務(wù)進(jìn)行抽取、變換、集成數據,最后將其存儲到數據倉庫,并要對數據的質(zhì)量進(jìn)行維護和管理。數據挖掘可以有效地識別讀者的閱讀行為,發(fā)現讀者的閱讀模式和趨勢,對網(wǎng)站改進(jìn)服務(wù)質(zhì)量、取得更好的用戶(hù)黏稠度和滿(mǎn)意度、提高科技期刊經(jīng)營(yíng)能力有著(zhù)重要的意義。作為一個(gè)分析推薦系統,我們將所分析的統計結果存儲于服務(wù)器中,在用戶(hù)或決策者需要查詢(xún)時(shí),只需輸入要找尋的用戶(hù)信息,系統將從數據庫中抽取其個(gè)人信息,并處理返回到上網(wǎng)時(shí)間分布、興趣點(diǎn)所在、適配業(yè)務(wù)及他對于哪些業(yè)務(wù)是有價(jià)值客戶(hù),甚至包括他在什么時(shí)段對哪類(lèi)信息更感興趣等。只有這些信息才是我們的使用對象所看重和需要的。
網(wǎng)站結構挖掘是挖掘網(wǎng)站中潛在的鏈接結構模式。通過(guò)分析一個(gè)網(wǎng)頁(yè)的鏈接、鏈接數量以及鏈接對象,建立網(wǎng)站自身的鏈接結構模式。在此過(guò)程中,如果發(fā)現某一頁(yè)面被較多鏈接所指向,則說(shuō)明該頁(yè)面信息是有價(jià)值的,值得期刊工作人員做更深層次的挖掘。網(wǎng)站結構挖掘在具體應用時(shí)采用的結構和技術(shù)各不相同; 但主要過(guò)程均包括預處理、模式發(fā)現和模式分析3 部分。為了反映讀者興趣取向,就需要對數據庫中的數據按用戶(hù)進(jìn)行抽樣分析,得到興趣點(diǎn)的統計結果,而個(gè)人的興趣分析也可基于此思路進(jìn)行。下面以《中華醫學(xué)雜志》為例做一介紹。
預處理預處理是網(wǎng)站結構挖掘最關(guān)鍵的一個(gè)環(huán)節,其處理得到的數據質(zhì)量直接關(guān)系到使用數據挖掘和模式分析方法進(jìn)行分析的結果。預處理步驟包括數據清洗、用戶(hù)識別、會(huì )話(huà)識別、路徑補充和事件識別。以《中華醫學(xué)雜志》網(wǎng)站www. nmjc. net. cn 的日志分析為例。首先給出一條已有的Log,其內容為“2014-03-04 12: 13: 47 W3SVC80003692 172. 22. 4. 3GET /index. asp-80-123. 185. 247. 49Mozilla /5. 0 +( Windows + NT + 6. 1; + WOW64 ) + AppleWebKit /537. 36 + ( KHTML,+ like + Gecko) + Chrome /28. 0.1500. 95 + Safari /537. 36 + SE + 2. X + MetaSr + 1. 0200 0 0”。從Log 的內容,工作人員可以得到相關(guān)信息,如用戶(hù)IP、用戶(hù)訪(fǎng)問(wèn)頁(yè)面事件、用戶(hù)訪(fǎng)問(wèn)的頁(yè)面、用戶(hù)請求的方法、返回HTTP 狀態(tài)以及用戶(hù)瀏覽的上一頁(yè)面等內容。
由于服務(wù)器同時(shí)部署了多個(gè)編輯部網(wǎng)站,這就要求工作人員必須對得到的訪(fǎng)問(wèn)www. nmjc. net. cn 日志,去除由爬蟲(chóng)軟件產(chǎn)生的記錄。這些記錄一般都會(huì )在日志結尾包含“Spider”的字樣。同時(shí),還需要去除不是由GET 請求產(chǎn)生的日志以及請求資源不是頁(yè)面類(lèi)型的日志。最后,工作人員還需要去除訪(fǎng)問(wèn)錯誤的請求,可以根據日志中請求的狀態(tài)進(jìn)行判斷。一般認為,請求狀態(tài)在( 200, 300) 范圍內是訪(fǎng)問(wèn)正確的日志,其他如403、400 和500 等都是訪(fǎng)問(wèn)錯誤的日志。用戶(hù)識別可以根據用戶(hù)的IP 地址和用戶(hù)的系統信息來(lái)完成。只有在IP 地址和系統信息都完全一致的情況下,才識別為一個(gè)用戶(hù)。會(huì )話(huà)識別是利用面向時(shí)間的探索法,根據超時(shí)技術(shù)來(lái)識別一個(gè)用戶(hù)的多次會(huì )話(huà)。如果用戶(hù)在一段時(shí)間內沒(méi)有任何操作,則認為會(huì )話(huà)結束。用戶(hù)在規定時(shí)間后重新訪(fǎng)問(wèn),則被認為不屬于此次會(huì )話(huà),而是下次會(huì )話(huà)的開(kāi)始。
利用WebLogExplore 分析日志、用戶(hù)和網(wǎng)頁(yè)信息在獲得了有效的日志數據后,工作人員可以利用一些有效數據挖掘算法進(jìn)行模式發(fā)現。目前,主要的數據挖掘方法有統計分析、關(guān)聯(lián)規則、分類(lèi)、聚類(lèi)以及序列模式等技術(shù)。本文主要討論利用Apriori 算法來(lái)發(fā)現科技期刊日志數據中的關(guān)聯(lián)規則。本質(zhì)上數據挖掘不是用來(lái)驗證某個(gè)假定的模式的正確性,而是在數據庫中自己尋找模型,本質(zhì)是一個(gè)歸納的過(guò)程。支持度( Support) 的公式定義為: Support ( A≥B) = P( A ∪B) 。支持度可以用于度量事件A 與B 同時(shí)出現的概率。如果事件A 與B 同時(shí)出現的概率較小,說(shuō)明事件A 與B 的關(guān)系不大; 如果事件A 與B 同時(shí)出現非常頻繁,則說(shuō)明事件A 與B 總是相關(guān)的。置信度( Confidence) 的公式定義為: Confidence( A≥B) = P( A | B) 。置信度揭示了事件A 出現時(shí),事件B 是否也會(huì )出現或有多大概率出現。如果置信度為100%,則事件A 必然會(huì )導致事件B 出現。置信度太低,說(shuō)明事件A 的出現與事件B 是否出現關(guān)系不大。
對所有的科技期刊日志數據進(jìn)行預處理后,利用WebLogExplore 軟件可得到日志匯總表。表中存儲了所有用戶(hù)訪(fǎng)問(wèn)網(wǎng)站頁(yè)面的詳細信息,工作人員可將其導入數據庫中。以查看到所選擇用戶(hù)訪(fǎng)問(wèn)期刊頁(yè)面的詳細信息。
同樣,在WebLogExplore 軟件中選擇感興趣的頁(yè)面,可以查看所有用戶(hù)訪(fǎng)問(wèn)該頁(yè)面的統計信息,如該頁(yè)面的訪(fǎng)問(wèn)用戶(hù)數量等。工作人員可以對用戶(hù)訪(fǎng)問(wèn)排名較高的頁(yè)面進(jìn)行進(jìn)一步的模式分析。
步驟1: 將圖2 日志信息匯總表中的數據導入數據庫中,建立日志總表。
步驟2: 在數據庫中建立一個(gè)新表命名為tj。
步驟3: 通過(guò)查詢(xún)程序得到日志總表中每一個(gè)用戶(hù)訪(fǎng)問(wèn)的頁(yè)面,同時(shí)做distinct 處理。
步驟4: 將查詢(xún)得到的用戶(hù)訪(fǎng)問(wèn)頁(yè)面記錄進(jìn)行判斷。如果用戶(hù)訪(fǎng)問(wèn)過(guò)排名前20 位的某個(gè)頁(yè)面,則在數據庫中寫(xiě)入true,否則寫(xiě)入false。依次循環(huán)判斷寫(xiě)入數據庫中。
步驟5: 統計每個(gè)訪(fǎng)問(wèn)排名靠前頁(yè)面的支持度,設置一維項目集的最小閥值( 10%) 。
步驟6: 統計大于一維閥值的頁(yè)面,寫(xiě)入數組,并對數組內部頁(yè)面進(jìn)行兩兩組合,統計每個(gè)組合2 個(gè)頁(yè)面值均為true 時(shí)的二維項目集的支持度。
步驟7: 設置二維項目集支持度的閥值,依次統計三維項目集支持度和置信度( A≥B) ,即當A 頁(yè)面為true 時(shí),統計B 頁(yè)面為true 的數量,除以A 為true 的數量。設置相應的.置信度閥值,找到訪(fǎng)問(wèn)排名靠前頁(yè)面之間較強的關(guān)聯(lián)規則。
4 數據挖掘技術(shù)應用的意義
1) 對頻繁訪(fǎng)問(wèn)的用戶(hù),可以使用用戶(hù)識別技術(shù)分析此用戶(hù)的歷史訪(fǎng)問(wèn)記錄,得到他經(jīng)常訪(fǎng)問(wèn)的頁(yè)面。當該用戶(hù)再次登錄系統時(shí),可以對其進(jìn)行個(gè)性化提示或推薦。這樣,既方便用戶(hù)使用,也可將系統做得更加友好。很多OA 期刊網(wǎng)站,不具備歷史瀏覽記錄的功能; 但瀏覽記錄對用戶(hù)來(lái)講其實(shí)十分重要,隱含了用戶(hù)對文章的篩選過(guò)程,所以對用戶(hù)經(jīng)常訪(fǎng)問(wèn)的頁(yè)面需要進(jìn)行優(yōu)化展示,不能僅僅提供鏈接地址,需要將文章題名、作者、關(guān)鍵詞等信息以列表的方式予以顯示。
2) 由數據挖掘技術(shù)而產(chǎn)生的頻繁項目集的分析,可以對網(wǎng)站的結構進(jìn)行改進(jìn)。支持度很高的頁(yè)面,說(shuō)明該頁(yè)面的用戶(hù)訪(fǎng)問(wèn)量大。為了方便用戶(hù)以及吸引更多的讀者,可以將這些頁(yè)面放置在更容易被訪(fǎng)問(wèn)的位置,科技期刊的網(wǎng)站內容一般以年、卷、期的形式展示。用戶(hù)如果想查看某一篇影響因子很高的文章,也必須通過(guò)年卷期的方式來(lái)查看,非常不方便而且頁(yè)面友好性不高。通過(guò)數據挖掘的分析,編輯部可以把經(jīng)常被訪(fǎng)問(wèn)或者高影響因子的文章放在首頁(yè)展示。
3) 對由數據挖掘技術(shù)產(chǎn)生的頻繁項目集的分析,可以發(fā)現用戶(hù)的關(guān)注熱點(diǎn)。若某些頁(yè)面或項目被用戶(hù)頻繁訪(fǎng)問(wèn),則可以用這些數據對用戶(hù)進(jìn)行分析。一般來(lái)說(shuō)科技期刊的讀者,每個(gè)人的專(zhuān)業(yè)和研究方向都是不同的,編輯部可以通過(guò)數據挖掘技術(shù)來(lái)判斷讀者的研究方向和感興趣的熱點(diǎn),對每一個(gè)用戶(hù)進(jìn)行有針對性的內容推送和消息發(fā)送。
4) 網(wǎng)站管理者可以根據在不同時(shí)間內頻繁項目集的變化情況對科技期刊網(wǎng)站進(jìn)行有針對性的調整,比如加入更多關(guān)于該熱點(diǎn)的主題資源。目前大多數科技期刊網(wǎng)站首頁(yè)的內容,均為編輯部工作人員后臺添加、置頂、高亮來(lái)吸引用戶(hù)的; 通過(guò)數據挖掘技術(shù),完全可以擯棄這種展示方式。編輯部網(wǎng)站的用戶(hù)訪(fǎng)問(wèn)哪些頁(yè)面頻繁,系統便會(huì )自動(dòng)將這些頁(yè)面的文章推向首頁(yè),不需要編輯部的人工干預,整個(gè)網(wǎng)站實(shí)現自動(dòng)化運行。
5 后記
本文重點(diǎn)討論了數據挖掘技術(shù)與科技期刊網(wǎng)站頁(yè)面之間的關(guān)系。其實(shí)我們還可以從很多方面進(jìn)行數據挖掘,比如可以對網(wǎng)站的用戶(hù)和內容進(jìn)行數據挖掘,通過(guò)分析可以為后期的期刊經(jīng)營(yíng)做好鋪墊。
有一點(diǎn)很重要,沒(méi)有一種數據挖掘的分析方法可以應付所有的需求。對于某一種問(wèn)題,數據本身的特性會(huì )影響你的選擇,需要用到許多不同的數據挖掘方法以及技術(shù)從數據中找到最佳的模型。
在目前深化文化體制改革,推動(dòng)社會(huì )主義文化大發(fā)展、大繁榮的政治形勢下,利用數據挖掘技術(shù)從中進(jìn)行提取、分析和應用,能有效地幫助企業(yè)了解客戶(hù)、改進(jìn)系統、制訂合理的市場(chǎng)策略、提高企業(yè)的銷(xiāo)售水平和利潤。通過(guò)利用數據挖掘技術(shù)準確定位優(yōu)質(zhì)客戶(hù),向客戶(hù)提供更精確、更有價(jià)值的個(gè)性化服務(wù)。這將成為未來(lái)科技期刊經(jīng)營(yíng)十分重要的突破點(diǎn)和增長(cháng)點(diǎn)。
【數據挖掘技術(shù)在科技期刊網(wǎng)站中的應用論文】相關(guān)文章:
數據挖掘在CRM中的應用論文04-10
網(wǎng)絡(luò )營(yíng)銷(xiāo)中數據挖掘技術(shù)的應用論文07-07
數據挖掘在培訓管理中的應用論文07-02
數據挖掘技術(shù)在網(wǎng)絡(luò )輿情危機管理中的應用論文10-20
大數據挖掘在智游應用中的探究論文04-13