C# 斷句實作(C# Sentence Segmentation)
這篇實作用C#來針對文章做斷句。斷句其原理很簡單,就是用標點符號來分割句子。
//文章內容
簡單介紹斷句的寫法,也可以把標點符號存在DB,在挑出特定要用的斷句符號,就能避免每次都要寫參數改來改去的狀況。
本段code出自於杯麵豪兒之手
//文章內容
string Content = "文章內容";
//將遇到要斷的標點符號加入到參數list(加入全形半形的逗號、句號等)
List<char> parameters = new List<char>();
parameters.Add(',');
parameters.Add(',');
parameters.Add('!');
parameters.Add('!');
parameters.Add('.');
parameters.Add('。');
parameters.Add('?');
parameters.Add('?');
parameters.Add(';');
parameters.Add(';');
//將文章用參數切割存到string [] 這邊就是斷句結果了
string[] sentenceList = Content.Split(parameters.ToArray());
//句子去空白等雜訊後存入資料庫
foreach (string s in sentenceList)
{
if(s!="" && s.Contains(" ") == false)
{
sentence.sentence = s;
toStore(); //存到資料庫
}
}
簡單介紹斷句的寫法,也可以把標點符號存在DB,在挑出特定要用的斷句符號,就能避免每次都要寫參數改來改去的狀況。
本段code出自於杯麵豪兒之手
你这拆完标点符号都不见了。。没有实用性啊
回覆刪除