文章切斷落功能C#(paragraph segmentation using C#)


Hi大家好,好久沒寫網誌分享東西,可能是年初很多會議跟需求要談,沒啥時間來分享,其實最近也研究一些Docker的東西,有空再來分享。

今天想簡單講一下文檔切斷落的功能,你現在有一份Word或PDF等文字檔,你想把它以段落來切可以怎麼做?  切完段落便可做後續的應用,整段落的相似抄襲比對等等的 。

程式如下非常簡單
主要用\r\n(即0D0A)做切割,要注意除了段行符號外,最好前面還有句點,因為PDF再用工具解析成string時,他一行字會自動\r\n,前面兩行在做一下過濾的處理,句點取代是針對英文文章的置換,空白取代是有時候句點後面有空格才有換行符號,做完這處理差不多就大功告成了,最後再用一段的長度篩選一下,避免過短的句子也拿來當段落。

content = content.Replace(".", "。");
content = content.Replace(" ", "");
string[] resultString = Regex.Split(content, "。\r\n", RegexOptions.IgnoreCase);
var paragraphs = resultString.Where(x => x.Length >= 30);

注意你必須先用解析工具把word或PDF解析成txt格式,可用Aspone等等工具,大致這樣,下次見。

留言

這個網誌中的熱門文章

Python-相關係數矩陣實作(python-correlation matrix )

ASP.NET-後端將值傳給javascript

ASP.NET-FileUpload上傳後自動觸發button click(FileUpload upload auto trigger button click)