C# 斷句實作(C# Sentence Segmentation)

這篇實作用C#來針對文章做斷句。斷句其原理很簡單,就是用標點符號來分割句子。

//文章內容
string Content = "文章內容";

 //將遇到要斷的標點符號加入到參數list(加入全形半形的逗號、句號等)
List<char> parameters = new List<char>();
parameters.Add(',');
parameters.Add(',');
parameters.Add('!');
parameters.Add('!');
parameters.Add('.');
parameters.Add('。');
parameters.Add('?');
parameters.Add('?');
parameters.Add(';');
parameters.Add(';');

//將文章用參數切割存到string []    這邊就是斷句結果
string[] sentenceList = Content.Split(parameters.ToArray());

//句子去空白等雜訊後存入資料庫
foreach (string s in sentenceList)
{
        if(s!="" && s.Contains("   ") == false)
        {
                    sentence.sentence = s;
                    toStore();  //存到資料庫
         }
}


簡單介紹斷句的寫法,也可以把標點符號存在DB,在挑出特定要用的斷句符號,就能避免每次都要寫參數改來改去的狀況。

本段code出自於杯麵豪兒之手

留言

  1. 你这拆完标点符号都不见了。。没有实用性啊

    回覆刪除

張貼留言

這個網誌中的熱門文章

Python-相關係數矩陣實作(python-correlation matrix )

ASP.NET-後端將值傳給javascript

ASP.NET-FileUpload上傳後自動觸發button click(FileUpload upload auto trigger button click)