基于知識模式挖掘的流程知識推薦系統(tǒng)1
(1.復(fù)旦大學(xué) 上海市數(shù)據(jù)科學(xué)重點實驗室,上海 201203; 2. 復(fù)旦大學(xué) 軟件學(xué)院,上海
201203)
摘要:傳統(tǒng)的流程管理與知識管理相互獨立,難以為流程參與者提供充分的知識支持,
為此提出一種基于知識模式挖掘的流程知識推薦系統(tǒng)。將流程日志和知識學(xué)習(xí)日志集成,
創(chuàng)建流程案例庫。根據(jù)角色信息和問題描述文本對流程案例建模,使用基于案例的推理挖
掘參與者面對新問題時的知識主題需求。使用馬爾科夫模型和序列模式算法挖掘面向主題
的知識學(xué)習(xí)模式,為參與者提供符合學(xué)習(xí)習(xí)慣的知識序列。在某軟件開發(fā)流程數(shù)據(jù)集上的
實驗驗證了在流程知識推薦中的可行性,實驗結(jié)果表明該方法具有較好的準(zhǔn)確率和召回率。
關(guān)鍵詞:序列模式;馬爾科夫模型;基于案例的推理;業(yè)務(wù)流程管理;推薦系統(tǒng)
中圖分類號:TP311 文獻標(biāo)識碼:A
Process-oriented knowledge recommendation by mining knowledge
patterns
LIU Haitao1, 2+,ZHAO Weidong1,2
(1.Shanghai Key Laboratory of Data Science, Fudan University, Shanghai 201203, China;
2. School of Software, Fudan University, Shanghai 201203, China)
Abstract:The disparity of business process management and knowledge management makes it a
challenge to provide effective knowledge support for process participants. To solve this problem,
the study proposes a process-oriented knowledge recommendation systemby mining knowledge
patterns from historical process executions. First, process context is modeledwith role information
of participants and description text of process problems. Then, a case repository is builtby
integrating process execution logs and knowledge reference logs. Based on the case repository, a
case based reasoning approach is utilized to reason the knowledge intention for new process
contexts. Further, thetopic-wise Markov model and sequential miningare usedto analyze
participants’ learning patterns on each knowledge topic. In this way, more helpful knowledge
sequences arerecommendedin accordance with learners’ cognitive patterns. Finally, the
effectiveness of this study is evaluated with a real-life software development process, and results
indicate that the system can achieve better precision and recall.
Keywords : sequential pattern; Markov model; case based reasoning; business process
management; recommender system
0 引言
知識是企業(yè)獲取競爭優(yōu)勢的重要資源。在知識日益豐富的今天,如何使用知識管理系統(tǒng)將企業(yè)
的知識資本轉(zhuǎn)化為企業(yè)效益成為一個重要問題。目前,許多企業(yè)使用工作流管理系統(tǒng)實現(xiàn)了自動化
辦公,但多數(shù)流程管理系統(tǒng)都沒有提供有效的知識支持[1,2]。流程管理與知識管理的分離使企業(yè)的知
收稿日期:2016-01-07;修訂日期:2016-03-10。Received 07 Jan.2016;accepted 10 Mar.2016.
基金項目:上海市浦江人才計劃資助項目(14PJC017);國家自然科學(xué)基金資助項目(71071038)。Foundation items:
Project supported bythe Pujiang Program, Shanghai, China (No. 14PJC017) ,and the National Natural Science Foundation,
China (No. 71071038).
網(wǎng)絡(luò)出版時間:2016-05-06 14:06:01
網(wǎng)絡(luò)出版地址:https://www.cnki.net/kcms/detail/11.3619.TP.20160506.1406.004.html
識財富得不到充分的利用,無法為員工提供充分的知識幫助。
如何實現(xiàn)知識管理與流程管理的有機結(jié)合已經(jīng)成為學(xué)術(shù)界的研究熱點[3,4]。文獻[5]使用協(xié)同過濾
發(fā)現(xiàn)知識需求相似的用戶,為流程參與者主動提供知識支持。在業(yè)務(wù)流程中,處理相似任務(wù)的員工
通常具有相似的知識需求。文獻[6]使用工作流模型分析員工之間的協(xié)作緊密程度,利用協(xié)同過濾為
參與者推薦感興趣的流程知識。類似地,Liu 等借鑒數(shù)據(jù)庫中視圖的思想,為不同角色的知識工作者
創(chuàng)建知識流視圖,提供面向角色的知識需求建模和知識支持[7]。流程中通常伴隨著隱性的知識流動,
從知識流的角度分析知識的創(chuàng)建、傳播過程,是流程知識推薦的另一種思路[8]。例如,文獻[9]嘗試
挖掘員工之間的郵件互動發(fā)現(xiàn)隱性的知識協(xié)作流程,促進隱性知識的分享。通過挖掘員工的知識需
求并主動地推薦知識,這些方法促進了企業(yè)知識的分享。然而,現(xiàn)有的流程知識推薦方法大多從信
息需求的角度提供知識支持,很少考慮用戶的學(xué)習(xí)過程,所推薦的知識列表并不能很好地滿足用戶
的認(rèn)知需求。
在線學(xué)習(xí)(E-learning)領(lǐng)域的研究顯示,知識學(xué)習(xí)過程會遵循一定的知識模式[10]。例如,在學(xué)
習(xí)新知識時,會遵循由淺入深、從寬泛到具體的學(xué)習(xí)規(guī)律。在面對海量潛在有益的知識時,如果能
推薦符合學(xué)習(xí)模式的知識序列,可以幫助員工更好地學(xué)習(xí)流程知識,促進知識財富的轉(zhuǎn)化。文獻[11]
研究了在線學(xué)習(xí)中的知識推薦,利用圖方法為學(xué)習(xí)者推薦符合自身知識結(jié)構(gòu)和學(xué)習(xí)目標(biāo)的知識路徑。
然而,業(yè)務(wù)流程的復(fù)雜性使得這些推薦方法很難發(fā)揮作用。在 E-learning 中,學(xué)習(xí)者的學(xué)習(xí)目標(biāo)和
知識水平比較容易建模,課程之間具有清晰的層次遞進關(guān)系;而在業(yè)務(wù)流程中,員工的知識需求復(fù)
雜多變,知識項之間關(guān)系松散。需要開發(fā)新的方法挖掘流程參與者的知識需求和知識學(xué)習(xí)模式。
本文提出一種基于知識模式挖掘的流程知識推薦系統(tǒng)。在知識密集型流程中(如軟件開發(fā)流程),
員工需要借助知識庫解決流程問題,通過檢索相關(guān)主題的知識文檔,獲取知識幫助。這些知識訪問
行為以日志的形式記錄在知識管理系統(tǒng)中,從中可以挖掘有益的知識模式,為解決新的流程問題提
供幫助[12]。本文將知識管理系統(tǒng)和流程管理系統(tǒng)的日志數(shù)據(jù)進行集成,挖掘了流程實例—知識主題
和知識主題—知識學(xué)習(xí)模式兩種知識模式。使用基于案例的推理[13]挖掘流程實例—知識主題模式,
通過識別相似的流程問題,發(fā)掘員工面對新問題時所需要的知識主題;利用馬爾科夫模型和序列模
式算法挖掘參與者學(xué)習(xí)各個主題時的知識學(xué)習(xí)模式,并推薦符合用戶認(rèn)知習(xí)慣的知識序列。實驗結(jié)
果表明本文的方法具有較高的推薦準(zhǔn)確率和召回率,證明了該方法在流程知識推薦中的可行性。
1 系統(tǒng)設(shè)計
圖 1 為流程知識推薦系統(tǒng)的架構(gòu)圖,包括離線學(xué)習(xí)和在線推薦兩個模塊。離線學(xué)習(xí)的主要任務(wù)
是創(chuàng)建流程案例庫和挖掘知識學(xué)習(xí)模式:①從工作流管理系統(tǒng)(Workflow Management System, WfMS)
和知識管理系統(tǒng)(Knowledge Management System, KMS)讀取日志數(shù)據(jù),經(jīng)過抽取、轉(zhuǎn)換、加載(ETL)
操作,創(chuàng)建描述流程問題實例—知識主題行為的案例庫;②使用序列模式挖掘、Markov 模型等算法
挖掘員工在學(xué)習(xí)各個知識主題時的學(xué)習(xí)模式。為了解決新的流程問題,在線推薦模塊采用兩階段推
薦策略:①對問題的描述文本進行分析,結(jié)合流程實例數(shù)據(jù),抽取新實例的流程上下文特征,使用
基于案例的推理在案例庫中發(fā)現(xiàn)相似的歷史案例,推理參與者需要的知識主題;②根據(jù)挖掘得到的
知識學(xué)習(xí)模式,為員工推薦符合認(rèn)知習(xí)慣的最佳知識序列,使參與者能夠較好地學(xué)習(xí)所需主題的流
程知識。
以某 IT 公司的軟件開發(fā)流程為例,論述基于知識模式挖掘的流程知識推薦方法。軟件開發(fā)流程
包括需求分析、系統(tǒng)設(shè)計、模塊開發(fā)、測試、文檔與報告等階段,各項任務(wù)都需要參與者具備專業(yè)
的業(yè)務(wù)知識。WfMS 以流程日志的形式記錄了流程的運行過程,如表 1 所示。每條數(shù)據(jù)記錄了一個流
程問題(或任務(wù))的處理,稱作流程實例。實例數(shù)據(jù)包括 Issue(問題)編號、參與者 ID、參與者的
角色、流程任務(wù)、實例描述等信息,其中“實例描述”以文本形式介紹了參與者要解決的流程問題,
是流程實例建模的重要信息。知識管理系統(tǒng)(Knowledge Management Systems,KMS)記錄了員工
使用知識庫解決實例問題的學(xué)習(xí)過程,每條行為數(shù)據(jù)包括 Issue 編號、參與者 ID、知識序列和學(xué)習(xí)
時間等,如表 2 所示。例如,軟件開發(fā)工程師 D2 為了解決開發(fā)任務(wù)遇到的“文件加密”問題,依
次學(xué)習(xí)了 k1,k3,k5 等知識項。通常情況下,KMS 和 WfMS 相對獨立,KMS 并沒有記錄 Issue 編號等
流程信息。為了充分發(fā)揮 KMS 的效用、更好地為參與者提供知識服務(wù),本文將 WfMS 和 KMS 進行了系
統(tǒng)層面的集成,使 KMS 能夠記錄參與者訪問知識庫時所處理的流程問題(Issue 編號)。
圖 1 流程知識推薦系統(tǒng)架構(gòu)圖
新實例 基于案例的推理 知識推薦
案例庫
ETL
知識庫
知 識 管 理 系
統(tǒng)
模式挖掘
離線學(xué)習(xí)
ETL
在線推薦
ETL
流 程 管 理 系
統(tǒng)
表 1 流程日志示例
Issue 參與者 角色 任務(wù) 實例描述
S116 A1 分析師 需求分析 “訪問控制…”
S117 D2 開發(fā)工程師 模塊開發(fā) “文件加密…”
S117 T1 測試工程師 軟件測試 “文件加密…”
表 2 知識學(xué)習(xí)日志示例
Issue 參與者 知識序列 時間
S116 A1 k7,k6,… 2012-09-06 15:35:00
S117 D2 k1,k3,k5,… 2012-09-08 17:35:00
S117 T1 k3,k2,k8,… 2012-10-22 08:29:06
WfMS 和 KMS 的日志數(shù)據(jù)是挖掘知識模式的基礎(chǔ),但在深入分析之前需要以下數(shù)據(jù)預(yù)處理操作:
(1)數(shù)據(jù)清洗。對數(shù)據(jù)集中的空值、異常值進行清洗。
(2)數(shù)據(jù)集成。使用 Issue 編號和參與者 ID 作為聯(lián)合主鍵,將流程日志和知識學(xué)習(xí)日志進行數(shù)
據(jù)集成。
(3)知識主題標(biāo)注。軟件公司的 KMS 以元數(shù)據(jù)的形式記錄了每條知識項所屬的知識主題,使用
知識主題元數(shù)據(jù)對知識序列進行主題標(biāo)注。對于未進行主題劃分的知識庫,可以使用聚類、LDA 等
文本挖掘算法自動抽取知識主題[14]。
(4)創(chuàng)建流程案例庫。流程案例庫記錄了歷史的流程問題和對應(yīng)的解決方案,可以為新的流程
問題提供指導(dǎo)。使用參與者角色、問題描述作為流程問題的上下文信息,將參與者學(xué)習(xí)的知識主題
作為相應(yīng)的解決方案,創(chuàng)建描述流程問題—知識主題關(guān)系的流程案例庫。
2 基于案例的知識推理
基于案例的推理(Case-Based Reasoning,CBR)使用過往案例的經(jīng)驗,為新案例尋求解決方案。
在業(yè)務(wù)流程中,歷史流程問題的知識解決方案可以為新問題提供思路。雖然 CBR 在流程決策支持中
得到了應(yīng)用,但很少有學(xué)者研究基于 CBR 的流程知識推薦[13]。流程知識推理存在以下幾個難點:①
流程問題的知識上下文相對復(fù)雜,受到參與者知識背景和任務(wù)要求等因素影響,存在一定的建模難
度。②知識庫中知識項數(shù)量龐大,直接針對知識項進行推理存在數(shù)據(jù)稀疏的問題,推理的準(zhǔn)確度不
高。針對這些問題,本章結(jié)合流程數(shù)據(jù)和知識數(shù)據(jù)進行案例建模,使用 CBR 推理參與者面對新問題
時的知識主題需求。
2.1 流程案例建模
案例建模是對流程問題的上下文進行描述。在本文中,CBR 的目標(biāo)是發(fā)掘員工的知識意圖,即
確定員工在面對流程問題時所需要的知識主題。員工的知識背景、流程任務(wù)的要求和問題本身都是
決定員工知識需求的重要因素。在流程中,相同角色的員工由于執(zhí)行相似的流程任務(wù),擁有相似的
背景知識和知識需求[7]。角色信息和問題描述一起能夠較好地決定員工的知識意圖。
定義流程案例 c 為關(guān)系(r, p) → ????????? ,其中 r 為參與者的角色,p 為流程問題的文本描述,(r, p)
構(gòu)成了流程問題的上下文信息;KT 為知識庫中的知識主題全集,????????? 表示參與者為了解決問題所學(xué)
習(xí)的知識主題,即解決方案。為了解決問題,參與者可能同時需要多個主題的知識,????????? 以向量的形
式表示每個知識主題的權(quán)重。給定知識主題???? ∈ ????,權(quán)重 wc,kt 為該主題的知識在案例 c 的解決方案
中的數(shù)量比例。
2.2 案例相似度指標(biāo)
相似度指標(biāo)用于評估案例之間的相似程度。相似度高的歷史案例可以作為新問題推理的依據(jù)。
定義案例 c1=(r1, p1)與 c2=(r2, p2)的案例相似度為式(1)。其中:simR(r1, r2)為角色 r1和 r2 的角色相似度,
衡量角色之間知識背景的相似程度;simP(p1, p2)為問題 p1和 p2的問題相似度;0 ≤ α ≤ 1為權(quán)重因子。
α值越大,角色相似度的權(quán)重越大,推理更側(cè)重參與者的知識背景;反之,α值越小,問題相似度權(quán)
重越大,推理更傾向于尋找相似的歷史問題。
( , ) ( , ) (1 ) ( , ) 1 2 1 2 p1 p2 Sim c c ?? ? simR r r ? ?? ? simP 。 (1)
承擔(dān)相似流程任務(wù)的角色,其知識背景和知識需求也比較類似。例如,在軟件開發(fā)流程中,開
發(fā)工程師和測試工程師都會參與一定量的開發(fā)和測試任務(wù),在一定程度上有著相似的知識需求。流
程日志為評估參與者的行為提供了基礎(chǔ),本文使用流程挖掘技術(shù)計算角色之間的相似度[12]。給定流
程日志 L 和流程任務(wù)集 TASK,統(tǒng)計角色 r 參與任務(wù) t ∈TASK 的次數(shù),記作 frequency(r, t)。角色
r 可以表示為向量?? =,其中 fti= frequency(r, ti)。使用余弦相似度定義角色 r1
和 r2的相似度,如式(2)所示。
( , ) /(| | *| | ) 1 2 1 2 1 2
simR r r ? r ?r r r 。 (2)
在業(yè)務(wù)流程中,通常以需求文檔、設(shè)計說明書等文本形式描述流程問題或任務(wù)要求。例如,軟
件開發(fā)人員通過閱讀設(shè)計文檔,了解軟件模塊的業(yè)務(wù)需求。為了評估流程問題之間的相似度,使用
文本挖掘計算問題描述文本的語義相似程度。利用開源的自然語言處理工具 StanfordNLP[15]對問題
描述文本進行分詞、去停頓詞、詞干化等預(yù)處理操作。隨后利用詞頻—逆文檔頻率(TF-IDF)模型
對流程問題文本建模,如式(3)所示。最后定義問題相似度為問題描述文本之間的余弦相似度。
( , ) *log( / ) doc TFterm,doc N DFterm weight term ? 。 (3)
2.3 知識需求推理
在案例推理階段,根據(jù)新問題的上下文特征和案例庫的歷史經(jīng)驗,確定員工的知識主題需求。
采用 K 近鄰的思路進行案例推理——在案例庫中發(fā)現(xiàn)相似度最高的 l 個歷史案例,使用相似度加權(quán)
預(yù)測員工對各個知識主題的需求權(quán)重,如式(4)所示。
? ?
?
c C
c t
duration Weight c t Sim c c w
'
'
,
( , ) ? * ( ,
')* 。 (4)
式中:C 為 l 個最相似案例的集合,Sim(c, c’)為案例相似度權(quán)重;
duration ?
為案例 c’的時間權(quán)重,
0 ? ? ?1
為衰減因子,duration 為案例 c’發(fā)生事件和當(dāng)前的時間間隔(以年為單位),即時間越久,權(quán)重越小。
在知識密集型的流程中,知識更新速度相對較快,為員工推薦新的知識方案能更好地滿足流程參與
者的知識需求。本文進行了實驗分析并設(shè)置 l=10,? ? 0.8。值得注意的是,在一些新開始的流程環(huán)
境中,可能無法獲取足夠數(shù)量的相似案例作為推理依據(jù)。針對這種情況,可以使用 SVM、Logistic
回歸等準(zhǔn)確率較高的分類算法從案例數(shù)據(jù)訓(xùn)練知識主題預(yù)測器,輔助 CBR 的知識推理過程。
CBR 能夠推理出參與者面對新問題時需要的知識主題和主題權(quán)重,解決了“學(xué)什么”的問題。
但對于每個主題的知識,還需要根據(jù)參與者的學(xué)習(xí)模式,以更友好的方式提供知識支持,即解決“怎
么學(xué)”的問題。
3 知識學(xué)習(xí)模式挖掘
知識的學(xué)習(xí)過程存在著一定的認(rèn)知模式,從知識庫的訪問日志中挖掘?qū)W習(xí)者的學(xué)習(xí)模式,能夠
更合理地為參與者(尤其是新員工)提供知識推薦。本文使用馬爾科夫模型和序列模式算法挖掘知
識工作者的學(xué)習(xí)模式。
3.1 面向主題的馬爾科夫模型
馬爾科夫(Markov)模型使用概率模型對序列模式建模,在 Web 日志分析、個性化推薦等領(lǐng)域
得到了廣泛應(yīng)用[16]。然而,現(xiàn)有的方法大多只考慮知識項之間的轉(zhuǎn)移關(guān)系,忽略了知識主題對學(xué)習(xí)
行為的影響。通常來看,學(xué)習(xí)者在短時間內(nèi)只會關(guān)注單個主題的知識,表現(xiàn)出一定的主題聚集性,
很少出現(xiàn)從一個知識主題突然跳轉(zhuǎn)到另一個主題的情況。傳統(tǒng)的 Markov 模型很少考慮這一特征,會
出現(xiàn)跨主題知識推薦的情況,影響了推薦的質(zhì)量。為了改善知識推薦的用戶體驗,本文利用知識庫
的元信息將知識學(xué)習(xí)日志按照主題進行切割,并訓(xùn)練面向主題的 Markov 模型,提高知識推薦的準(zhǔn)確
性和友好性。
3.1.1 知識學(xué)習(xí)日志分割
原始的知識學(xué)習(xí)日志(KL)記錄了參與者的學(xué)習(xí)行為,如表 2 所示。每條數(shù)據(jù)包含參與者解決
流程問題的知識學(xué)習(xí)序列,記作,m 為序列長度。利用知識庫的元信息,將知識
序列劃分為多個知識子序列——每個子序列中的知識項隸屬相同的知識主題,并按照學(xué)習(xí)順序排列。
令 K 表示知識庫中知識項的集合,T 表示知識主題的集合。對于每個知識主題???? ∈ ??,得到相應(yīng)的
知識序列子集 KLkt。
3.1.2 狀態(tài)與知識跳轉(zhuǎn)關(guān)系
在 k 階 Markov 模型中,狀態(tài)是指知識序列中的一個 k-gram。給定知識序列,
k 階 Markov 模型的第 j 個狀態(tài)為
?? j j? j?k?i ?
k
j S k , k ,...,k 1
,1 ≤ ?? ≤ ?? ? ?? + 1。例如,對于知識序列
s’=,一階 Markov 模型的狀態(tài)集為{k1, k2, k3},二階 Markov 模型的狀態(tài)集為{,}。
跳轉(zhuǎn)關(guān)系是指從一個狀態(tài)跳轉(zhuǎn)到一個知識項的時序關(guān)系。將從知識項 kj 跳轉(zhuǎn)到 ki的跳轉(zhuǎn)關(guān)系記
作 kj→ki,表示參與者在學(xué)習(xí)知識項 kj之后轉(zhuǎn)向?qū)W習(xí) ki。對于起始的知識項,源狀態(tài) kj為空,記作?。
上述序列 s’中存在跳轉(zhuǎn)關(guān)系{?→k1, k1→k2, k2→k3,→k3}。
3.1.3 面向主題的 Markov 模型
為了保證知識學(xué)習(xí)的連貫性,訓(xùn)練面向主題的知識學(xué)習(xí)模型。即對于每個知識主題 kt,在數(shù)據(jù)
集 KLkt 上單獨訓(xùn)練 Markov 模型。在 Markov 模型中,跳轉(zhuǎn)概率矩陣 P 和初始化概率向量??
是需要學(xué)
習(xí)的兩個重要參數(shù)。跳轉(zhuǎn)概率
( | )
k
i j P k S
表示給定當(dāng)前的知識學(xué)習(xí)狀態(tài)
k
j S
,下一個要學(xué)習(xí)的知識項為
ki 的概率。利用跳轉(zhuǎn)概率矩陣,推薦系統(tǒng)可以根據(jù)學(xué)習(xí)者當(dāng)前的學(xué)習(xí)狀況,預(yù)測接下來最有可能學(xué)
習(xí)的知識項,提供基于上下文的實時知識項推薦。初始化概率表示各個知識項作為起始知識的概率,
為學(xué)習(xí)者推薦歡迎度較高的起始知識項可以提高知識學(xué)習(xí)的效率。根據(jù)最大似然估計,跳轉(zhuǎn)概率
( | )
k
i j P k S
的計算方法為式(5),即 ki 出現(xiàn)在
k
j S
之后的比例。相應(yīng)地,ki 作為起始知識項的概率?????? =
??(????
|?)。
( | ) ( , )/ ( )
k
i j
k
j
k
P ki
S j
? frequency S k frequency S 。 (5)
在 Markov 模型中,隨著階數(shù) k 的增大,模型加入更多上下文信息,預(yù)測的準(zhǔn)確度會相應(yīng)提升;
但與此同時,數(shù)據(jù)稀疏性問題會降低預(yù)測的覆蓋率。采用 1 階模型和 2 階模型線性插值的方法,在
準(zhǔn)確率和召回率之間取得平衡,如式(6)所示。
( | ) * ( | ) (1 )* ( | )
1 2
i j i j i
S j P k S ? ? P k S ? ? ? P k 。 (6)
式中:
0 ? ? ?1
為權(quán)重系數(shù)。設(shè)置
? ? 0.5
,即兩個模型的概率預(yù)測平均值。
3.2 知識序列模式挖掘
知識的上下文依賴關(guān)系決定了學(xué)習(xí)者的學(xué)習(xí)行為存在一定的序列模式。例如,學(xué)習(xí)知識項 ka 之
后,通常會學(xué)習(xí)知識項 kb,稱為頻繁序列。挖掘知識學(xué)習(xí)中的序列模式,可以在新的知識上
下文中為用戶推薦合適的知識序列。
3.2.1 頻繁知識序列挖掘
本文挖掘面向知識主題的頻繁序列模式——給定知識主題 kt,從知識序列數(shù)據(jù)集 KLkt中挖掘頻
繁的知識序列。設(shè) K={k1, k2, …, kp }為包含 p 個知識項的集合。一個知識序列 S 是知識項集的有序
集合,記為 S=,其中每個元素 xi是知識集 K 的子集。序列 X=被另一
個 序 列 Y= 所 包 含 , 當(dāng) 且 僅 當(dāng) 存 在 1 ≤ ??1 < ??2 < ? < ???? ≤ ?? , 使 得
X ? Yi X ? Yi X m ? Yim , ,...,
1 1 2 2
。稱 X 是 Y 的子序列,Y 為 X 的超序列。給定序列數(shù)據(jù)集,定義序列 X
的支持度為數(shù)據(jù)集中 X 超序列的數(shù)量,記作 support(X)。給定最小支持度閾值 minSupport,如果
support(X)≥minSupport 則稱 X 為頻繁序列。
GSP 算法是常見的序列挖掘算法,利用 Aprior 性質(zhì)迭代地生成候選集、剪枝,最終得到頻繁序
列集[17]。由于GSP算法需要多次掃描事務(wù)數(shù)據(jù)庫且每次產(chǎn)生的候選集過大,算法效率不高。PrefixSpan
算法借鑒 FP-growth 的思想,在內(nèi)存中利用樹形結(jié)構(gòu)存儲序列信息,能夠更高效地挖掘序列模式。
本文使用 PrefixSpan 算法挖掘各個知識主題的頻繁序列模式。
3.2.2 知識項預(yù)測
知識項預(yù)測模塊將挖掘得到的序列模式集作為輸入,通過匹配用戶當(dāng)前的知識學(xué)習(xí)序列,預(yù)測
用戶接下來可能學(xué)習(xí)的知識項。
令用戶 u 當(dāng)前的學(xué)習(xí)會話 su 為 su=< k1, k2, …, kn>,即用戶最近學(xué)習(xí)的 n 條知識項所組成的知識
序列。令 SP=表示挖掘得到的序列模式集,pren(p)表示序列 p 的 n 項前綴。定義會
話 su與模式 p 匹配,當(dāng)且僅當(dāng) p 的長度為 n+1,且 pren(p)是 su的子序列。對于匹配的模式 p,將該
序列的第 n+1 項的知識項集合作為候選的推薦知識。定義推薦的置信度為式(7),即序列 p 和前綴序
列 pren(p)的支持度比值。隨后,推薦模塊將置信度大于閾值 minConfidence 的知識項推薦給學(xué)習(xí)者。
Confidence(p,s ) support(p)/support(pre (p)) u
?
n 。 (7)
對于會話狀態(tài) su,時間窗口 n 的大小會影響推薦的效果。當(dāng) n 較小時,序列的上下文信息較少,
序列模式很難捕捉到用戶真實的知識意圖,推薦的準(zhǔn)確度較低;反之,當(dāng) n 過大時,用戶的學(xué)習(xí)興
趣會發(fā)生演化,由于數(shù)據(jù)的稀疏性問題,推薦的覆蓋率較低。為了解決這一問題,使用 all-kth-order
的方法進行序列模式匹配[18]。首先,推薦引擎使用當(dāng)前會話狀態(tài) su 進行模式匹配。如果匹配失敗,
則迭代地從會話序列中移除最久(最開始)的知識項后再進行序列匹配,直到產(chǎn)生推薦結(jié)果為止。
4 實驗
為了評估本文的方法,使用軟件開發(fā)流程數(shù)據(jù)進行實驗,分析流程知識推薦系統(tǒng)的推薦效果。
4.1 數(shù)據(jù)集
實驗數(shù)據(jù)來源于某 IT 公司的軟件開發(fā)流程,以 2012 年 5 月~2013 年 5 月的流程日志和知識學(xué)
習(xí)日志作為訓(xùn)練數(shù)據(jù),以 2013 年 6 月~2013 年 9 月的數(shù)據(jù)作為評估數(shù)據(jù)。訓(xùn)練數(shù)據(jù)包含 16 239 條
流程實例、8 670 條知識項和 186 個知識主題,知識學(xué)習(xí)序列的平均長度為 16。
4.2 CBR 性能評估
為了評估 CBR 知識主題推理的效果,使用式(8)計算 top-N 推薦結(jié)果的準(zhǔn)確度。分析學(xué)習(xí)日志,
發(fā)現(xiàn)85%的流程問題僅需要一個主題的知識就可以得到解決,而98%的問題需要的知識主題數(shù)量≤3。
基于此,實驗分析了在 N=1 和 N=3 情況下 CBR 的推薦準(zhǔn)確度。
| |
| |
推薦的主題集 實際學(xué)習(xí)的主題集
推薦的主題集 實際學(xué)習(xí)的主題集 推薦準(zhǔn)確度
?
?
? 。 (8)
圖 2 給出了在不同權(quán)重因子??下,CBR 的主題推理的準(zhǔn)確度變化曲線??偟膩砜矗瑃op-1 的推薦
準(zhǔn)確度高于 top-3,即單個主題的命中率更高。隨著系數(shù)α的增大,準(zhǔn)確度曲線呈現(xiàn)先升后降的趨勢。
當(dāng)α=0 時,CBR 僅根據(jù)流程問題的相似度進行推理,推薦準(zhǔn)確度為 88%(N=1),隨著模型加入角
色信息,推薦準(zhǔn)確度逐漸提升。反之,當(dāng)α=1 時,CBR 僅考慮了角色的知識背景,推薦效果近似于
隨機預(yù)測(50%),在模型加入問題信息后,推薦效果大幅提升。由此可知,在知識推理中問題描
述信息對挖掘知識需求貢獻更大。在α=0.3 時,CBR 取得最優(yōu)的推薦結(jié)果——top-1 推薦的準(zhǔn)確度高
達 97%,top-3 推薦的準(zhǔn)確度為 93%,推薦效果較好?;诖?,系統(tǒng)將權(quán)重系數(shù)α設(shè)置為 0.3。
圖 2 不同權(quán)重系數(shù)下 CBR 的準(zhǔn)確率比較
4.3 學(xué)習(xí)模式評估
本節(jié)比較了兩種知識模型的推薦效果,并與相關(guān)的知識推薦算法比較,驗證本文算法的有效性。
4.3.1 Markov 模型評估
為了評估主題劃分對學(xué)習(xí)模式挖掘的有效性,實驗對比了面向主題的 Markov 模型(記做 TAM)
和一般 Markov 模型(記做 GM)的推薦效果。
圖 3 為不同 Markov 模型的準(zhǔn)確率變化曲線。隨著閾值的增大,Markov 模型的準(zhǔn)確度逐步提高,
且高階 Markov 模型的準(zhǔn)確度高于低階模型(如 GM-2nd 優(yōu)于 GM-1st)。對比兩類模型(如 GM-2nd
和 TAM-2nd),發(fā)現(xiàn) TAM 模型的準(zhǔn)確率比 GM 提高了約 10%。由于學(xué)習(xí)者在短時間內(nèi)的知識意圖
相對集中,對知識序列集進行主題劃分,能夠顯著提高知識模式的質(zhì)量。圖 4 給出了不同 Markov
模型的召回率變化曲線。隨著概率閾值的增大,Markov 模型的召回率逐步降低,且高階 Markov 模
型的準(zhǔn)確度低于低階模型。對比 GM 模型和 TAM 模型,發(fā)現(xiàn) TAM 的召回率也優(yōu)于 GM。因為 TAM
提高了同一主題下知識項被推薦的概率,使得推薦結(jié)果能夠覆蓋更多該主題的知識,提高了推薦的
召回率。結(jié)合圖 3 和圖 4,可以發(fā)現(xiàn)線性插值模型(TAM-Inter)模型的準(zhǔn)確率優(yōu)于 1 階模型,召回
率優(yōu)于 2 階模型。線性插值模型在推薦的準(zhǔn)確率和召回率之間得到較好的平衡,模型的 F1 較高。
TAM-Inter 在閾值為 0.2 時取得最優(yōu)的 F1 值(0.48)。
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
準(zhǔn)確率
權(quán)重系數(shù)
N=3
N=1
圖 3 不同 Markov 模型的準(zhǔn)準(zhǔn)確率變化曲線
圖 4 不同 Markov 模型的召回率變化曲線
4.3.2 兩種知識模型對比
為了評估頻繁序列模式的推薦效果,設(shè)置用戶的知識會話長度 n=6,并將最后一個知識項移除
作為預(yù)測目標(biāo)。在評估數(shù)據(jù)集上進行實驗,得到圖 5 和圖 6 所示的結(jié)果,其中線性插值模型作為基
準(zhǔn)。
對比可知,序列模式(SP)的推薦準(zhǔn)確度優(yōu)于 Markov 模型,這是因為序列模式包含更豐富的
上下文信息,能夠更好地挖掘?qū)W習(xí)者的知識需求。相應(yīng)地,序列模式的召回率較低,尤其是在精確
匹配時。由于 Markov 模型是概率模型,在數(shù)據(jù)稀疏時可以起到一定的數(shù)據(jù)平滑作用,模型的覆蓋率
較好。此外,all-kth-order 策略很好地平衡了 SP 的準(zhǔn)確率和召回率,以較小的準(zhǔn)確度犧牲換取了大
幅的召回率提升。all-kth-order 策略在置信度閾值為 0.2 時,取得最優(yōu)的 F1 值(0.57),優(yōu)于 TAM-Inter。
基于此,系統(tǒng)使用 all-kth-order 策略進行知識模式匹配,并將置信度大于 0.2 的知識項作為推薦結(jié)果。
總的來看,兩種知識模型各有優(yōu)缺。SP 能夠挖掘得到豐富的知識學(xué)習(xí)模式,在會話長度適中的
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
準(zhǔn)確率
概率閾值
GM-1st
GM-2nd
TAM-1st
TAM-2nd
TAM-Inter
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
召回率
概率閾值
GM-1st
GM-2nd
TAM-1st
TAM-2nd
TAM-Inter
情況下,通過匹配知識模式準(zhǔn)確地識別員工的知識意圖,推薦準(zhǔn)確率較高。然而,在知識會話較短
的情況下,員工的知識意圖相對模糊,需要借助于 Markov 模型的優(yōu)勢,通過概率推理推薦合適的知
識項。此外,對于新加入知識系統(tǒng)的流程知識,知識訪問數(shù)據(jù)相對稀疏,使用 Markov 模型可以一定
程度地提高推薦的覆蓋率。在實際的應(yīng)用中需要將兩種模型有機結(jié)合、取長補短,提高知識推薦的
效果。
圖 5 不同預(yù)測模型的準(zhǔn)確率變化曲線
圖 6 不同預(yù)測模型的召回率變化曲線
4.3.3 推薦效果評估
為了評估本文算法的推薦效果,和現(xiàn)有的兩種流程知識推薦算法作比較。基于用戶的過濾(又
叫協(xié)同過濾)通過識別知識興趣相似的知識群體,推薦“鄰居”用戶感興趣的知識項[6]
;基于內(nèi)容的
過濾通過分析知識項的語義信息,學(xué)習(xí)用戶的知識偏好模型。這里使用 all-kth-order 策略的推薦
結(jié)果進行比較。參考文獻[18]的方法,將知識序列中最后一個知識項移除,作為知識推薦的預(yù)測目
標(biāo),并使用命中率評估推薦的準(zhǔn)確率。將知識序列 s 的最后一項(即推薦目標(biāo))記作 st,式(9)給出
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
準(zhǔn)確率
置信度閾值
SP
All-kth-order
TAM-Inter
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
召回率
置信度閾值
SP
All-kth-order
TAM-Inter
了命中率的定義。RN(s)為針對知識序列 s 的 top-N 推薦結(jié)果,testset 為所有測試集,命中率表示推薦
結(jié)果包含目標(biāo)知識項的概率。命中率越高,說明推薦的準(zhǔn)確率越高,推薦效果越高。
HitRatio | s testset:s RN (s) | | testset | ? ? t ? 。 (9)
圖 6 為不同推薦算法的命中率變化曲線。隨著推薦數(shù)量 N 的增大,各種算法的命中率逐步提高,
且提升速度減緩。相對于基于用戶的過濾,基于內(nèi)容的過濾推薦結(jié)果較好。在業(yè)務(wù)流程中,短時間
內(nèi)的知識學(xué)習(xí)行為通常是為了解決特定的流程問題,訪問的知識內(nèi)容存在較高的主題相關(guān)性。基于
內(nèi)容的過濾通過推薦與當(dāng)前知識內(nèi)容語義相似的知識項,可以改善推薦的準(zhǔn)確率。本文算法在分析
案例相似度時,既考慮了知識群體的知識背景相似度(角色),還分析了流程問題的相似度,能夠
準(zhǔn)確地挖掘參與者的知識需求,推薦的命中率較好。此外,通過挖掘參與者的知識學(xué)習(xí)模式,進一
步提高了知識推薦的準(zhǔn)確性。
圖 6 不同推薦算法的命中率比較
5 結(jié)束語
參與者的知識水平是決定流程質(zhì)量的重要因素。本文提出一種基于知識模式挖掘的流程知識推
薦系統(tǒng),通過主動推送流程知識的方式幫助參與者解決流程問題。系統(tǒng)集成了 KMS 和 WfMS 的流
程日志,以創(chuàng)建流程案例庫。使用 CBR 發(fā)現(xiàn)相似的歷史流程案例,挖掘參與者的知識主題需求。面
向主題的序列模式和 Markov 模型用于挖掘參與者學(xué)習(xí)各個知識主題時的學(xué)習(xí)模式,提供符合學(xué)習(xí)習(xí)
慣的知識推薦。實驗結(jié)果表明,本文方法具有較高的準(zhǔn)確度和召回率,證明了其在流程知識支持中
的可行性。
本文使用角色信息和問題的文本描述對流程案例建模,但在現(xiàn)實的業(yè)務(wù)流程中,流程上下文數(shù)
據(jù)更加復(fù)雜。未來計劃在案例建模中考慮更多的流程元素,促進知識推薦與流程管理的緊密結(jié)合,
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
命中率
推薦數(shù)量
本文算法
基于內(nèi)容的過濾
基于用戶的過濾
更加準(zhǔn)確地挖掘流程參與者的知識需求。另一個研究方向是,挖掘知識主題之間的序列模式和認(rèn)知
習(xí)慣,提供跨知識主題的知識推薦。
參考文獻:
[1] GUO J, YU D. Development of process-oriented knowledge supply model for E-maintenance[J]. Advances
in Information Sciences & Service Sciences,2012,4(10).
[2] JUNG J, CHOI I, SONG M.An integration architecture for knowledge management systems and business
process management systems[J].Computers in Industry,2007,58(1):21-34.
[3] WANG Zhansong, TIAN Ling, DUAN Wenrui.Knowledge push technology based on design intent modeling [J].
Computer Integrated Manufacturing Systems, 2015, 21(3): 606-617(in Chinese).[王占松, 田 凌, 段文
睿.基于設(shè)計意圖建模的知識推送技術(shù)[J].計算機集成制造系統(tǒng),2015,21(3): 606-617.]
[4] LAI C. Applying knowledge flow mining to group recommendation methods for task-based groups[J].
Journal of the Association for Information Science and Technology,2015,66(3):545-563.
[5] LAI C, Liu D.Integrating knowledge flow mining and collaborative filtering to support document
recommendation[J].Journal of Systems and Software,2009, 82(12): 2023-2037.
[6] HUANG Z, LU X, DUAN H, et al.Collaboration-based medical knowledge recommendation[J].Artificial
intelligence in medicine,2012,55(1):13-24.
[7] LIU D, LIN C, CHEN H.Discovering role-based virtual knowledge flows for organizational knowledge
support[J]. Decision Support Systems,2013,55(1):12-30.
[8] LEE H J, KIM J H. Mining knowledge demands from information flow[J]. Expert Systems with Applications,
2012, 39(8):6799-6806.
[9] SOARES D C, SANTORO F M, BAI?O F A.Discovering collaborative knowledge-intensive processes through
e-mail mining[J].Journal of Network and Computer Applications,2013,36(6):1451-1465.
[10] HHAMPARIA A, PANDEY B. Knowledge and intelligent computing methods in e-learning[J].International
Journal of Technology Enhanced Learning,2015,7(3):221-242.
[11] GUILLAUME D, NABIL B, FRAN?OIS L Graph theory based model for learning path recommendation[J].
Information Sciences,2013,251:10-21.
[12] ZHAO Weidong,LIU Haitao.Application of process mining in process optimization[J].Computer
Integrated Manufacturing Systems,2014, 20(10): 2632-2642 (in Chinese).[趙衛(wèi)東, 劉海濤.流程挖掘在
流程優(yōu)化中的應(yīng)用[J].計算機集成制造系統(tǒng), 2014, 20(10): 2632-2642.]
[13] MINOR M, MONTANI S, RECIO-GARCíA J A.Process-oriented case-based reasoning[J].Information Systems,
2014, 40: 103-105.
[14] BLEI D M. Probabilistic topic models[J].Communications of the ACM, 2012, 55(4): 77-84.
[15] Manning C D, Surdeanu M, Bauer J, et al. The stanford CoreNLP natural language processing toolkit[C]//
Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System
Demonstrations.2014: 55-60.
[16] YANG Q, FAN J, WANG J,et al.Personalizing web page recommendation via collaborative filtering and
topic-aware Markov model[C]//Proceedings of the 10th International Conference onData
Mining.Washington,D.C.,USA:IEEE, 2010: 1145-1150.
[17] MOONEY C H, RODDICK J F.Sequential pattern mining--approaches and algorithms[J].ACM Computing
Surveys,2013,45(2):19.
[18] HARIRI N, MOBASHER B, BURKE R. Context-aware music recommendation based on latenttopic sequential
patterns[C]//Proceedings of the 6th ACM Conference on Recommender Systems.New York, N.Y., USA:ACM,
2012:131-138.