年度研究工作簡報

來源：才華庫 9.13K

2014年度很快就過去了，一年下來忙忙碌碌，深感科研不易，且行且珍惜吧。作為總結，寫個部落格算是2014年度主要研究工作的簡報吧，歡迎多多指教。

1) 團隊合作中的群體分配機制研究

團隊合作逐漸成為科學研究的主要模式，打破了個人科學研究中貢獻和功勞的對稱，給功勞分配提出了嚴峻挑戰。為了區分團隊成員在團隊合作的貢獻大小，不同的學科所採取的策略差異很大，而現有方法大多基於作者順序或作者宣告的貢獻來確定每個人的功勞分配比例，無法應對學科間規則差異大、實際貢獻難以量化等難題。針對該科學難題，我們提出了群體功勞分配方法(Collective Credit Allocation)，該方法不再試圖量化個體的真實貢獻，轉而採用“被感知的貢獻”(Perceived Contribution)作為功勞分配的依據，利用共引用關係作為度量“被感知貢獻”的依據。該方法獨立於學科分配規則和作者順序等資訊，能夠自適應地量化個體從團隊合作中獲得的功勞分配比例。預測諾貝爾獎得主的實驗表明，所提出的群體分配方法在預測準確率上達到了86%，遠高於基於作者順序和作者角色的方法。同時，所提出的群體分配方法還可以幫助我們研究獲獎帶來的馬太效應，並可用以比較不同學者在其共同領域中的影響力。論文題目為Collective credit allocation in science，於2014年8月發表在綜合性學術刊物美國科學院院刊PNAS上。

　2) 資訊傳播中的時間標度研究

資訊傳播中使用者間互動行為的時間間隔對於研究資訊傳播具有重要的啟示作用。現有方法大多假設使用者間互動行為的時間間隔服從指數分佈或泊松分佈，基於該假設的模型和方法將資料按照時間進行切片來研究，缺少大規模資料上的實證分析支援，且預測精度受限。我們以WISE 2012國際會議提供的新浪微博資料為基礎，分析了使用者間互動行為的時間間隔分佈。分析發現，對於任意一個使用者和其任一關注者，他們之間的大部分轉發行為密集發生在一些較短的時間窗中，這些頻繁轉發的時間窗之間有大段的空白期，表明其間關注者很少轉發被關注者的微博。這表明使用者互動行為表現出了個體行為中時常觀測到的陣發現象：個體間短期的頻繁互動被長期的沉默所間隔，時間間隔服從冪率分佈，而不是現有模型所假設的指數或泊松分佈。基於該發現，我們建立了一個含時模型(Decay Model)，來估計和預測未來社會推薦的成功概率，並在新浪微博資料上進行實證檢驗。在任意比例的訓練樣本下，所提出的含時模型都一致優於現有不含時的基準方法。當訓練樣本較少時優勢更加明顯，表明含時模型只需少量樣本即可準確估計影響力。論文題目為Temporal scaling in information propagation，於2014年5月發表在Nature旗下開放訪問的學術刊物Scientific Reports上。

　3) 社交網路上的高效影響最大化演算法

影響最大化(InfluenceMaximization)旨在解決如何在網路上選擇一部分初始種子使用者，由他們口口相傳將企業的產品或資訊儘可能地推廣開來。該問題是在社交網路或社會媒體上進行口碑營銷或病毒式營銷的核心問題。現有方法中，貪心演算法精度高但速度低，啟發式演算法速度快但精度無保障。為此，我們擬設計高效的影響最大化演算法，從啟發式的角度切入研究影響最大化問題，分析發現貪心演算法所得的解集是一種自洽排序——節點的邊際影響力和它們的排序是自洽的。據此，我們提出直接通過尋找自洽排序來求解影響最大化問題。我們提出一個迭代的框架IMRank，將任意給定的初始排序通過迭代調整的方式得到自洽排序。迭代框架包括兩個步驟：(1)根據當前排序計算各個節點的邊際影響力;(2)按照邊際影響力對節點進行重新排序。我們在理論上證明了演算法的收斂性，並在PHY、DBLP、EPINIONS、DOUBAN和LIVEJOURNAL等5個數據集上測試了IMRank的效能。實驗結果表明，IMRank在計算效率上顯著超過了當前最好的貪心演算法和啟發式演算法，計算精度和當前最好的貪心演算法相當。論文題目為IMRank: Influence Maximization via Finding Self-Consistent Ranking，於2014年7月發表在資訊檢索領域CCF A類會議SIGIR2014上。

　4) 流行度動態過程的建模與預測

線上社會關係網路中，訊息之間相互競爭使用者的關注度。根據平均場理論，對於單個訊息而言，其流行度可以視為該訊息獲得關注的一個動態過程。實證分析發現，訊息獲得關注的過程受到三個微觀機制的影響：(1)適者生存，即訊息自身的吸引力對其最終的流行度起決定作用;(2)富者愈富，即訊息的流行度越高越容易獲得新的關注;(3)時間效應，即隨著時間推移訊息獲得關注的可能性會下降。針對該問題，我們提出了一種基於自增強泊松過程(Reinforced Poisson Process)的概率模型，建模流行度動態過程的上述三個微觀機制。該模型是一種產生式模型，直接建模各個訊息獲得關注的過程，可再現整個線上社會關係網路的流行度分佈。進一步，通過將訊息自身的吸引力視為隱變數，併為其引入一個共軛先驗，採用貝葉斯框架對訊息流行度進行預測，進一步提高了預測的準確度。以美國物理協會旗下11個期刊從1893年到2009年間的引文網路為例，將論文的引用次數視為流行度，通過預測論文的引用次數來驗證我們所提出模型的有效性。實驗表明，所提出的基於自增強泊松過程的模型，在預測流行度方面顯著超過了基於時間序列自迴歸的模型和對數迴歸模型。論文題目為Modeling and Predicting Popularity Dynamics via Reinforced PoissonProcesses，於2014年7月發表在人工智慧領域CCF A類會議AAAI 2014上。

年度工作簡報年度研究工作簡報