摘 要
互聯(lián)網(wǎng)以其便捷、虛擬化、傳播快等特點使大眾更樂于通過網(wǎng)絡(luò)方式發(fā)表各自看法,形成網(wǎng)絡(luò)輿情。政府通過構(gòu)建網(wǎng)絡(luò)輿情系統(tǒng),及時了解社情民意,主導(dǎo)網(wǎng)絡(luò)輿情。本文從網(wǎng)絡(luò)輿情系統(tǒng)技術(shù)實現(xiàn)方面,介紹了輿情系統(tǒng)進行輿情收集、分析、預(yù)警、報告的整個過程,詳細論述各個過程實現(xiàn)的關(guān)鍵技術(shù),從而為理解和構(gòu)建政府輿情監(jiān)控系統(tǒng)提供參考。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;輿情監(jiān)控系統(tǒng);電子政務(wù)
[1] Realization of the government network monitoring system based on publicopinion
Mei Song
(Information and Network Center, Hubei PartyInstitute & Hubei Administration Institute , Wuhan 430022)
Abstract: People are more willing to expresstheir views through the network for its convenience, virtualization, spreadquickly.So It is easy to form a network public opinion. Through building anetwork monitoring system for public opinion, the government can keep abreastof public sentiment and lead the network of public opinion.Based on the implementation technology of government network monitoring system, thisarticle describes the whole process applications of the system and discusses indetail the key technologies of each process, so as to provide a reference for understandingand building the government network public opinion monitoring system.
Key words: Internet public opinion;Network public opinion monitoring system;E-government
一、我國網(wǎng)絡(luò)輿情現(xiàn)狀及對政府的影響
1.1網(wǎng)絡(luò)輿情現(xiàn)狀
近兩年網(wǎng)絡(luò)熱點事件爆發(fā)頻繁,主要有三個方面的原因:一是網(wǎng)民人數(shù)增長迅速,據(jù)中國互聯(lián)網(wǎng)信息中心今年7月發(fā)布的第26次互聯(lián)網(wǎng)發(fā)展狀況統(tǒng)計報告顯示:截至2010年6月30日,中國網(wǎng)民規(guī)模已達到4.2億人,普及率達到31.8%,從而擴大了網(wǎng)絡(luò)輿情形成的基礎(chǔ)。二是網(wǎng)絡(luò)的虛擬化、即時性、傳播快的特點,使其成為社情民意的首選表達平臺。三是在世界金融危機的背景下,中國改革近30年經(jīng)濟增長和社會轉(zhuǎn)型所積累的各種矛盾而引發(fā)的現(xiàn)實問題傾向于通過網(wǎng)絡(luò)凸顯,如果控制不當容易導(dǎo)致現(xiàn)實事件的激化態(tài)勢。2009年網(wǎng)絡(luò)熱點事件為數(shù)眾多。根據(jù)對五大網(wǎng)絡(luò)社區(qū)熱點事件發(fā)帖數(shù)量的統(tǒng)計,發(fā)帖超過5000份的熱點事件有16項(見表1),其中發(fā)帖過萬份的事件有5項 [1]。[2]
表1:2009年度網(wǎng)絡(luò)熱點事件排行榜
| 事件/話題 | 天涯社區(qū) | 凱迪社區(qū) | 強國論壇 | 新浪論壇 | 中華網(wǎng) 論壇 | 合計 |
1 | 湖北巴東縣鄧玉嬌案 | 5260 | 7390 | 2390 | 3086 | 7007 | 25133 |
2 | 重慶打黑風暴 | 8790 | 2109 | 1345 | 1578 | 6157 | 19979 |
3 | 云南晉寧縣“躲貓貓”事件 | 4682 | 2536 | 598 | 5011 | 2151 | 14978 |
4 | 上海交通管理部門 “釣魚執(zhí)法” | 3959 | 1300 | 753 | 5123 | 318 | 11453 |
5 | 網(wǎng)癮標準與治療 | 4997 | 923 | 425 | 3978 | 776 | 11099 |
6 | 強制安裝“綠壩”軟件 起爭議 | 4570 | 1952 | 899 | 956 | 639 | 9016 |
7 | 杭州市飆車案 | 2849 | 1720 | 223 | 1502 | 1201 | 7495 |
8 | 吉林通鋼暴力事件 | 605 | 573 | 1719 | 882 | 3276 | 7055 |
9 | 長江大學三學生舍身救人 | 3723 | 211 | 953 | 784 | 688 | 6359 |
10 | 央視曝光谷歌涉黃 | 3467 | 1120 | 437 | 683 | 375 | 6082 |
11 | 河南農(nóng)民工“開胸驗肺” | 1899 | 873 | 656 | 973 | 1427 | 5828 |
12 | 賈君鵬紅遍網(wǎng)絡(luò) | 3818 | 398 | 103 | 1066 | 337 | 5722 |
13 | 鄭州市副局長“替誰說話” | 1435 | 918 | 2090 | 453 | 489 | 5385 |
14 | 昆明“小學生賣淫”案 | 3156 | 1060 | 223 | 351 | 498 | 5288 |
15 | 成都“6。5”公交車燃燒事件 | 2108 | 862 | 56 | 869 | 1284 | 5179 |
16 | 河南靈寶市跨省抓捕 王帥案 | 1670 | 1570 | 206 | 653 | 905 | 5004 |
17 | 99%訪民“精神病”說 | 1849 | 1480 | 483 | 471 | 527 | 4810 |
18 | 羅彩霞被冒名頂替上大學 | 2516 | 721 | 178 | 529 | 652 | 4596 |
19 | 貴州習水縣嫖宿幼女案 | 1842 | 782 | 116 | 611 | 961 | 4312 |
20 | 湖北石首市騷亂 | 772 | 1210 | 270 | 1267 | 585 | 4104 |
1.2網(wǎng)絡(luò)輿情對政府形象的影響
從表格數(shù)據(jù)可以看出,當前形成網(wǎng)絡(luò)輿情的熱點事件呈現(xiàn)兩個方面的特點:一方面,事件主要涉及公民權(quán)利保護、公共權(quán)力監(jiān)督、公共道德伸張等一系列重大社會公共問題,往往反映的是負面信息。另一方面,排名前20位的事件中,與政府直接相關(guān)的有15件,占總事件數(shù)的75%,其中負面事件14件,占政府事件總數(shù)的93%。說明當前受大眾最為關(guān)注的熱點事件往往反映的是政府的負面信息,直接影響了政府及領(lǐng)導(dǎo)干部的形象。
十六屆四中全會在《中共中央關(guān)于加強黨的執(zhí)政能力建設(shè)的決定》中提出:“高度重視互聯(lián)網(wǎng)等新型傳媒對社會輿論的影響,加快建立法律規(guī)范、行政監(jiān)管、行業(yè)自律、技術(shù)保障相結(jié)合的管理體制,加強互聯(lián)網(wǎng)宣傳隊伍建設(shè),形成網(wǎng)上正面輿論的強勢?!薄敖⑤浨閰R集和分析機制,暢通社情民意反映渠道”,把建立和完善輿情信息匯集和分析機制作為一種制度性的設(shè)計和安排,標志著黨對輿情研究重要性的進一步認識。
隨著網(wǎng)絡(luò)媒體逐漸成為反映社情民意主要載體,網(wǎng)絡(luò)輿情已經(jīng)越來越成為政府各部門關(guān)注的焦點。輿情監(jiān)控系統(tǒng)的構(gòu)建為政府相關(guān)部門提供了智能化全時段的電子監(jiān)控技術(shù),信息主管部門可用其跟蹤網(wǎng)絡(luò)熱點事件、主導(dǎo)網(wǎng)絡(luò)文化陣地。對公職能部門可利用它實時監(jiān)控網(wǎng)上對本部門的相關(guān)信息,隨時獲知公眾對本部門的意見或看法,對于不利于本部門的負面信息給予自動報警,即時分析處理,判別事件處理優(yōu)先級,作出相應(yīng)對策處理,緩解輿論壓力,避免事態(tài)惡化,從而變被動為主動,維護政府部門的良好形象。
二、網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的總體框架
網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的功能包括:輿情規(guī)劃、輿情收集、輿情分析、輿情控制、輿情評估。相應(yīng)地分別由以下五個子系統(tǒng)組成:
1、輿情規(guī)劃子系統(tǒng)。確定監(jiān)控的主題,設(shè)定監(jiān)控的對象(國內(nèi)主要網(wǎng)站、論壇、博客)。日常一般設(shè)置為本部門的機構(gòu)名稱或部門領(lǐng)導(dǎo)名字即可;在輿情爆發(fā)期,可根據(jù)輿情主題關(guān)鍵詞來進行設(shè)置,準確捕獲輿情動態(tài)信息。
2、輿情收集子系統(tǒng)。從指定的所有監(jiān)控對象中,實時自動獲取指定主題的網(wǎng)頁信息,存入本地信息庫中。
3、輿情分析子系統(tǒng)。對信息庫中的所有信息,實時分析處理,包括主題識別、信息分類、數(shù)量統(tǒng)計、重要性分級,同時通過與之前信息分析結(jié)果相比較,自動研判相關(guān)輿情的主題及熱度變化趨勢。
4、輿情控制子系統(tǒng)。實現(xiàn)輿情預(yù)警通報、應(yīng)急方案制定、部門應(yīng)急聯(lián)動等管理內(nèi)容。通過設(shè)定一定闕值,超過闕值范圍系統(tǒng)自動報警,繼而引入人工干預(yù),啟動政府應(yīng)急方案。
5、輿情評估子系統(tǒng)。主要是輿情事件的事后分析備案和總結(jié),為輿情監(jiān)控系統(tǒng)的優(yōu)化及應(yīng)急預(yù)案評估和修訂提供參考依據(jù)。
系統(tǒng)總體框架圖示如下:
三、監(jiān)測系統(tǒng)實現(xiàn)的關(guān)鍵技術(shù)
針對上述輿情監(jiān)測系統(tǒng)各部分的功能組成,結(jié)合系統(tǒng)總體框架圖,下面我們詳細介紹各功能的關(guān)鍵技術(shù)實現(xiàn)。
3.1Web信息采集技術(shù)
選定監(jiān)控目標對象集(網(wǎng)站、論壇、博客等信息來源地址),設(shè)置主題關(guān)鍵詞,進行信息捕獲并存入輿情信息庫。采集技術(shù)利用搜索引擎中的網(wǎng)絡(luò)爬蟲技術(shù),根據(jù)http協(xié)議檢索Web文檔信息,自動提取網(wǎng)頁,實現(xiàn)對主題網(wǎng)頁的抓取。采集時需關(guān)注三個方面的策略問題:
在采集效率上,為保證輿情監(jiān)控的實時性,可根據(jù)需要設(shè)定下載網(wǎng)頁的層數(shù),同時實現(xiàn)多對象、多線程并行采集。其次,為避免因抓取速度過快、抓取頻度過高造成目標網(wǎng)站服務(wù)器拒絕服務(wù)的問題,需根據(jù)目標網(wǎng)站的下載速度決定下載的線程數(shù)及請求的頻率。最后,初次遍歷目標對象后,下次遍歷時,只需對新更新的頁面進行下載,提高效率。
在采集算法上,通過引入具有頁面采集順序及主題相關(guān)性識別機制的主題網(wǎng)絡(luò)爬蟲技術(shù),定向抓取目標網(wǎng)頁資源。它主要基于Web頁面間鏈接結(jié)構(gòu)的分析確定頁面的重要性,進而決定采集順序的策略。通常認為有較多入鏈或出鏈的頁面具有較高的價值。Page Rank和Hits是其中具有代表性的算法[2]。著名的GOOGLE搜索引擎就是使用這一算法。
在采集周期上,需根據(jù)目標網(wǎng)站的信息量、訪問量、信息更新頻率等因素自動設(shè)定信息采集的周期,例如新聞類網(wǎng)站的更新頻率(以分鐘或小時計算)高,抓取的間隔時間就要短些。
3.2Web文本預(yù)處理技術(shù)
在信息分析之前,需要對搜集到的所有網(wǎng)頁進行去重、內(nèi)容提取、中文分詞、文本特征提取等預(yù)處理工作,為下階段的輿情信息分析做好基礎(chǔ)工作。
3.2.1網(wǎng)頁內(nèi)容提取技術(shù)
與普通文本相比,網(wǎng)頁包含了除正文以外的大量其他信息,如廣告鏈接、網(wǎng)頁格式標記等。與傳統(tǒng)數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)相比,網(wǎng)頁上多是無結(jié)構(gòu)或半結(jié)構(gòu)化的信息,其數(shù)據(jù)格式多樣化,格式信息和內(nèi)容數(shù)據(jù)參雜在一起,因此需要提取網(wǎng)頁中的正文內(nèi)容,再進行后續(xù)的內(nèi)容分析。具體過程為:對通篇文檔進行HTML源碼掃描,提取網(wǎng)頁中的3種信息:
1)文檔標題:通過提取出置標命令〈Title〉與〈/Title〉之間字串而得到;
2)文檔內(nèi)容:通過提取出置標命令〈Body〉與〈/Body〉之間所有正文文本得到;
3)新的鏈接:通過提取出置標命令〈Ahref =“字串” 〉中引號部分的字符串得到;
設(shè)置一些字符串變量,如STR:存儲HTML文檔中的正文部分;TitleStr:存儲標題部分的內(nèi)容。過濾掉如“<script>”和“</script>”之間字符串(一般是系統(tǒng)函數(shù)或者過程),“<style>”和“</style>”之間的字符串(一般是對于頁面風格的設(shè)置)等不需要的信息。最后,將Titlestr和STR輸出,就可以得到網(wǎng)頁標題及正文信息 [3]。
3.2.2文本分詞技術(shù)
文檔內(nèi)容提取完成后,就可以開始進行分詞處理。文本分詞是信息相關(guān)度和重要性分析以及文本特征表示的基礎(chǔ),原理是將一篇文檔轉(zhuǎn)化為詞庫的形式。建立停用詞表,去除相關(guān)停用詞。分詞方法主要有下面3種:
基于規(guī)則的分詞方法,又稱機械分詞方法,是按一定的算法從待分析的文本中提取一系列的字符串,依次與預(yù)先建立的詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。其局限性在于詞典的完備性。
基于統(tǒng)計的分詞方法,是基于(兩個或多個)漢字同時出現(xiàn)的概率,通過對語料庫(經(jīng)過處理的大量領(lǐng)域文本的集合)中的文本進行有監(jiān)督或無監(jiān)督的學習,從而獲取該類文本的某些整體特征。
基于理解分詞,又稱知識分詞,是一種理想的分詞方法,利用句法和語義信息或者從大量語料中找出漢字組詞的結(jié)合特點來進行評價,找到最貼近于原句語義的分詞結(jié)果。
3.2.3文本特征抽取
文本特征抽取是信息分析的關(guān)鍵,將文本通過一定模型進行表示,挖掘信息隱含語義特征,從而達到文本標識的目的。文本特征是指關(guān)于文本的元數(shù)據(jù),特征表示是指以一定特征項(如詞條或描述)來代表文檔,在文本分類或聚類時只需對這些特征項進行處理,從而實現(xiàn)對非結(jié)構(gòu)化的文本的處理,這是一個非結(jié)構(gòu)化向結(jié)構(gòu)化轉(zhuǎn)化的處理步驟[4]。
特征表示模型有多種,常用的有布爾邏輯模型、概率型、向量空間模型(Vector Space Model,VSM)等。近年來應(yīng)用較好的是向量空間模型,其基本思想是將文本看作特征詞的集合,并使用特征詞的加權(quán)向量表示文本,將文本轉(zhuǎn)換成易為數(shù)學處理的向量模型,使得文本相似運算和排序成為可能。
具體處理過程為:從文本中提取可以代表文本內(nèi)容的若干關(guān)鍵詞(t1,t2,t3,…..,tn)作為特征詞,根據(jù)特征詞在文本中的重要程度,給每個特征詞賦予一個權(quán)值Wi。若一篇文本用N個特征詞來表示,則可構(gòu)造一個N維的向量空間,每個特征詞所對應(yīng)的權(quán)值Wi即為該文本在向量空間中對應(yīng)維的向量分量,即將文本表示為一個特征向量(W1,W2,W3,……,Wn)。
由于Web文本的數(shù)據(jù)量非常大,表示文本的特征向量的維數(shù)很大,可能會達到幾萬維,如此高維的特征空間會使一些挖掘算法無法進行或效率很低,實際運用中還需要對特征空間進行降維處理。
3.3輿情信息分析跟蹤技術(shù)
3.3.1話題識別及跟蹤技術(shù)
話題識別與跟蹤(TDT)通過監(jiān)測目標網(wǎng)站的信息,實現(xiàn)對輿情新話題的自動識別和對已知話題的動態(tài)跟蹤。包括5個方面工作:報道切分、話題關(guān)聯(lián)識別、新話題發(fā)現(xiàn)、話題識別和話題跟蹤[5]。
報道切分是從一個信息源獲得的信息流切分為多個不同的話題相關(guān)的文檔。
話題關(guān)聯(lián)識別用于判斷兩篇文檔是否描述了同一個話題,多個文檔對按時間排序,順序處理。
新話題發(fā)現(xiàn)是對信息流中的每篇文檔,順序判斷其內(nèi)容是否描述了一個新的話題,即是否為該信息流中描述某個話題的首篇文檔。新主題的識別是話題發(fā)現(xiàn)的第一步工作,被認為是TDT中最有難度的任務(wù)。
話題識別是對信息流建立一個簇劃分系統(tǒng),簇內(nèi)所有文檔描述同一話題,由新主題發(fā)現(xiàn)和話題追蹤兩方面技術(shù)共同實現(xiàn)。
話題跟蹤是給出一組種子報道,訓練得到話題模型,然后在后續(xù)報道中發(fā)現(xiàn)與這個話題相關(guān)的所有報道。
3.3.2 文本情感傾向分析
網(wǎng)絡(luò)文本的傾向性分析就是挖掘網(wǎng)絡(luò)文本內(nèi)容蘊含的各種喜好態(tài)度、情感等非內(nèi)容信息。由于網(wǎng)絡(luò)的虛擬性和匿名性,使得網(wǎng)絡(luò)輿情在大多數(shù)情況下真實地表達出了民眾的態(tài)度和情緒。通過傾向性分析可以明確網(wǎng)絡(luò)傳播者的意圖和傾向,可以判斷某一信息屬于正面信息還是負面信息,例如若是針對政府某部門或某領(lǐng)導(dǎo)的負面信息,系統(tǒng)自動報警,從而使相關(guān)部門及時了解網(wǎng)情,做好應(yīng)對措施。
當前流行的語義傾向性分析系統(tǒng)可以分為2個步驟,首先是識別詞匯的語義(短語)傾向性,然后利用不同的策略,根據(jù)詞匯(短語)的傾向性給出整篇文本的語義傾向評價。目前主要有兩種研究思路。第一種,是對所有詞匯的傾向性評分進行統(tǒng)計求和,根據(jù)最終的得分正負來評價文本的傾向性。第二種,是采用機器學習的方式根據(jù)詞匯的傾向性訓練出語義傾向分類器,這是目前比較流行的思路,總體效果比統(tǒng)計求和要好。
四、結(jié) 語
本文闡述了政府網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實現(xiàn),主要從監(jiān)控流程、總體框架、關(guān)鍵技術(shù)三個方面對輿情監(jiān)控系統(tǒng)進行了全面的解構(gòu)。輿情監(jiān)控的關(guān)鍵技術(shù)涉及信息檢索學、自然語言處理、Web信息搜索、數(shù)據(jù)挖掘、信息學等多個領(lǐng)域,其算法和模型的研究又是具體技術(shù)實現(xiàn)效果的關(guān)鍵。輿情監(jiān)控系統(tǒng)實際運行中具體效果的評估及技術(shù)改進,是今后進一步研究的方向。
參考文獻:
【1】 2009年中國互聯(lián)網(wǎng)輿情分析報告 https://yq.people.com.cn/htmlArt/Art392.htm
【2】 劉世濤.簡析搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略【J】 阜陽師范學院學報(自然科學版) 2006(9)
【3】 蘇芳仲,林世平. Web文本挖掘中的一種中文分詞算法研究及其實現(xiàn)【J】 福州大學學報(自然科學版)2004(12)
【4】胡靜,蔣外文,朱華. Web文本挖掘中數(shù)據(jù)預(yù)處理技術(shù)研究【J】 現(xiàn)代計算機 2009(3)
【5】張壓,劉云. 話題識別與跟蹤技術(shù)的發(fā)展與研究【J】 北京電子科技學院學報 2008 (6)