隨著互聯(lián)網(wǎng)技術(shù)和應(yīng)用的普及和發(fā)展,新聞、論壇、博客、微博客、視頻網(wǎng)站等輿情產(chǎn)生速度、傳播渠道等均呈現(xiàn)出爆炸式快速增長的態(tài)勢,據(jù)初步統(tǒng)計(jì),2009年以來,互聯(lián)網(wǎng)網(wǎng)上具有負(fù)面影響的輿情數(shù)量同比增長了近 2倍以上。目前主要存在以下問題拯待解決: 1)網(wǎng)絡(luò)輿情監(jiān)測導(dǎo)控工作幾乎完全是通過人工的方式開展的,手工發(fā)現(xiàn)關(guān)注網(wǎng)站的局部性、時(shí)間上的滯后性與信息發(fā)布的隨意性、隨時(shí)性之間的矛盾日益嚴(yán)重。 2)缺乏輿情信息綜合分析,導(dǎo)致分析關(guān)聯(lián)能力不足。例如,特定輿情事件在新聞、論壇、微博、博客等不同來源上的關(guān)聯(lián)分析。 3)各分支在輿情信息的管理上缺乏統(tǒng)一的信息報(bào)送、輿情導(dǎo)控任務(wù)下發(fā)等業(yè)務(wù)流程的信息化工具支撐。 4)目前,輿情導(dǎo)控體系中缺乏可量化的考核數(shù)據(jù)作為各級領(lǐng)導(dǎo)年底評分的依據(jù); 在經(jīng)過多次現(xiàn)場充分調(diào)研的基礎(chǔ)上,提出建設(shè)輿情綜合導(dǎo)控系統(tǒng)的規(guī)劃,制定一個統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)交換接口規(guī)范,作為輿情分析研判和考核統(tǒng)計(jì)的元數(shù)據(jù),從而對互聯(lián)網(wǎng)上傳播的輿情信息進(jìn)行準(zhǔn)確查找、歸類、排重、分析、研判、導(dǎo)控和核查,實(shí)現(xiàn)對互聯(lián)網(wǎng)上各類海量數(shù)據(jù)快速分析處理,更加準(zhǔn)確的掌握各類輿情信息傳播的數(shù)量、范圍、趨勢、影響等情況,最終形成一套科學(xué)、全面、高效地掌握網(wǎng)上輿情監(jiān)測導(dǎo)控系統(tǒng)。 1.2建設(shè)目標(biāo) 系統(tǒng)建設(shè)總體實(shí)現(xiàn)目標(biāo)是:能夠全面、準(zhǔn)確、及時(shí)的獲取與“我”有關(guān)的網(wǎng)絡(luò)信息,深層次的對互聯(lián)網(wǎng)輿情信息進(jìn)行分析和挖掘,通過統(tǒng)一的綜合指揮系統(tǒng)實(shí)現(xiàn)輿情的及時(shí)上傳和導(dǎo)控任務(wù)的集中下達(dá),并從在線率、引導(dǎo)發(fā)帖、信息報(bào)送及任務(wù)下發(fā)等多方面綜合考核,確保以互聯(lián)網(wǎng)輿情監(jiān)測小組為核心的整體監(jiān)測成效。 1總體架構(gòu) 1.1軟件架構(gòu) 整個系統(tǒng)設(shè)計(jì)分為數(shù)據(jù)采集子系統(tǒng)、輿情信息數(shù)據(jù)倉庫、輿情研判分析子系統(tǒng)、引導(dǎo)指揮子系統(tǒng)、引導(dǎo)考核子系統(tǒng)幾個部分。 .1.1數(shù)據(jù)采集子系統(tǒng) 負(fù)責(zé)對信息源頭采集,采集子系統(tǒng)主要實(shí)現(xiàn)多線程、集群采集模式。滿足項(xiàng)目采集深度和廣度要求,采集深度按照需求可采集到新聞評論、微博轉(zhuǎn)發(fā)數(shù)、粉絲數(shù)以及論壇的評論樹回帖數(shù)等。 采集廣度本系統(tǒng)提供通用采集配置,支持大部分新聞、論壇的采集,只需要配置 URL即可實(shí)現(xiàn)采集。采集性能可以靈活配置策略,分為指定調(diào)度和隨機(jī)調(diào)度兩個模式。采集時(shí)效性可以定制。 1.1.2輿情信息數(shù)據(jù)倉庫 按照系統(tǒng)制定的數(shù)據(jù)規(guī)范支持外圍系統(tǒng)數(shù)據(jù)接入,數(shù)據(jù)倉庫設(shè)計(jì)分布式架構(gòu),通過集群方式擴(kuò)展項(xiàng)目的規(guī)模。主要分為分布式儲存與全文索引、關(guān)系數(shù)據(jù)庫。同時(shí)對外提供 API訪問接口。數(shù)據(jù)入庫經(jīng)過數(shù)據(jù)的加工處理包括自動摘要、實(shí)體抽取、內(nèi)容分類等操作為后續(xù)研判提供標(biāo)準(zhǔn)數(shù)據(jù)。 整個系統(tǒng)設(shè)計(jì)分為數(shù)據(jù)采集子系統(tǒng)、輿情信息數(shù)據(jù)倉庫、輿情研判分析子系統(tǒng)、引導(dǎo)指揮子系統(tǒng)、引導(dǎo)考核子系統(tǒng)幾個部分。 .1.1數(shù)據(jù)采集子系統(tǒng) 負(fù)責(zé)對信息源頭采集,采集子系統(tǒng)主要實(shí)現(xiàn)多線程、集群采集模式。滿足項(xiàng)目采集深度和廣度要求,采集深度按照需求可采集到新聞評論、微博轉(zhuǎn)發(fā)數(shù)、粉絲數(shù)以及論壇的評論樹回帖數(shù)等。 采集廣度本系統(tǒng)提供通用采集配置,支持大部分新聞、論壇的采集,只需要配置 URL即可實(shí)現(xiàn)采集。采集性能可以靈活配置策略,分為指定調(diào)度和隨機(jī)調(diào)度兩個模式。采集時(shí)效性可以定制。 1.1.2輿情信息數(shù)據(jù)倉庫 按照系統(tǒng)制定的數(shù)據(jù)規(guī)范支持外圍系統(tǒng)數(shù)據(jù)接入,數(shù)據(jù)倉庫設(shè)計(jì)分布式架構(gòu),通過集群方式擴(kuò)展項(xiàng)目的規(guī)模。主要分為分布式儲存與全文索引、關(guān)系數(shù)據(jù)庫。同時(shí)對外提供 API訪問接口。數(shù)據(jù)入庫經(jīng)過數(shù)據(jù)的加工處理包括自動摘要、實(shí)體抽取、內(nèi)容分類等操作為后續(xù)研判提供標(biāo)準(zhǔn)數(shù)據(jù)。