面向問答社群的中文問題分類

2022-11-24 01:59:38 字數 1290 閱讀 9021

作者:董才正劉柏嵩

**:《計算機應用》2016年第04期

摘要:傳統的問題分類體系大都基於事實類問題,傳統的問題分類方法也比較依賴於疑問詞這一分類特徵,但問答社群(cqa)中非事實類問題居多,且許多問題並不包含疑問詞,為此,提出一種面向問答社群的粗粒度分類體系,並在此基礎上提出一種基於疑問詞的層次化結構問題分類方法。該方法首先自動識別問題中的疑問詞,若疑問詞存在,則用支援向量機(svm)模型進行分類;而對沒有疑問詞的問題,則用所構造的基於焦點詞的分類器進行分類。

通過在從中文問答社群知乎中所爬取的問題資料集上進行實驗,與傳統的基於svm模型的分類方法相比,該方法的分類準確率提高了4.7個百分點。實驗結果表明,這種根據問題是否含有疑問詞而選擇不同分類器的方法,減輕了分類方法對疑問詞的依賴,能有效提高問答社群中問題分類的準確率。

關鍵詞:中文問題分類;問答社群;層次分類;支援向量機;焦點詞中圖分類號: tp391.

4 文獻標誌碼:a0引言隨著網際網路的發展與普及,、騰訊搜搜問問、知乎等中文問答社群(community question answering, cqa)發展迅速,逐漸成為廣受使用者喜愛的知識共享平臺。其主要優勢在於使用者可以按照自己的語言習慣自由地提出任意型別的問題,同時也可以幫助其他使用者解決任意型別的問題。

隨著問答社群影響力的不斷擴大,問答社群中積累了大量的問題答案對資源。截止到2015年3月,中文cqa平臺已經累計解決問題***個,騰訊搜搜問問已經累計解決問題***個,並且每天平均以超過10000個新問題的速度在不斷增長。針對這些海量問答資源的資料探勘是一個非常具有價值的研究熱點。

問題分類的任務就是對於給定的問題,將它劃分到相應的語義類別中。問題分類的結果有助於精確定位答案的位置、選擇合適的答案搜尋策略以及評價答案的質量等,比如文獻[1]利用問題分類的結果去構建答案質量評價模型,從而從問題的眾多候選答案中篩選出高質量的答案。與傳統的問題分類相比,面向cqa的問題分類存在如下困難:

1)現有的問題分類體系一般針對事實型問題,比如:“bbs的簡稱是什麼?”“第一個進入太空的中國人是誰?

”“光的傳播速度是多少?”等,這類問題的答案通常比較簡短。然而在cqa中,問題型別的分佈十分廣泛,其中事實型問題所佔比例相對較少,現有分類體系不再適用,需要設計一個更加合理的問題分類體系。

2)現有的問題分類方法大都針對包含疑問詞的問句,比較依賴於問句中的疑問詞這一分類特徵。然而cqa中的問題是由真實的使用者提出的,語言表達方式十分靈活,存在著許多不包含疑問詞的問句,比如:“求問國內最好的懸疑或推理**?

”“**旅遊攻略?”“癌症形成的主要原因?”等,採用現有的方法對這類問題進行分類無法取得很好的效果。

因此,面向cqa的問題分類需要新的解決思路。