本軟件具有以下功能:
1.統(tǒng)計(jì)一個文檔中出現(xiàn)過的所有漢字及非漢字頻度
2.統(tǒng)計(jì)一個文檔中和另外一個字表對比之后超綱的詞及詞頻數(shù),對字頻統(tǒng)計(jì)結(jié)果進(jìn)行詞頻升序、詞頻降序、字母升序、字母降序排列
3. 詞典工具具有超強(qiáng)功能:提取某個長度的詞、刪除首字符串含某字符串的詞、提取尾字符串為某字符串的詞、刪除尾字符含某字符串的詞、提取出首字符串為某字符串的詞、字串的每一個詞的unicode值或ASC值、提取尾字重復(fù)的字符串、詞組排序、刪除重復(fù)的字符串、刪除含某個詞串的詞、將文本打散為一詞一行、提取含某個詞串的詞、附帶ASC碼表、刪除連續(xù)空格、任意提取單空格詞組或多空格詞組、刪除詞中含有的某些字符、剔除含有某些漢字或其他字符的行,提取某個字符串之前所有單詞。對于普通文檔可以將其打散后進(jìn)行操作,本詞典工具目前的處理速度尚未優(yōu)化,準(zhǔn)備在下一版本將詞典工具單獨(dú)拿出來,進(jìn)行優(yōu)化,以便處理極大的文檔。
4.本軟件一大特色是批量處理,用戶可以批量選擇一系列的文本文件,進(jìn)行批量生成頻度文件Fre。頻度文件是一種包含字或詞以及頻度的自定義數(shù)據(jù)文件,是ROST的專有格式。通過Fre的定義,可以有效提高處理速度。對頻度文件Fre的處理可以進(jìn)行合集和交集的計(jì)算。合集得到所有頻度文件的總和。而交集得到的是所有頻度文件中都含有的文字。這在實(shí)際當(dāng)中有何作用呢,可以對一系列文檔進(jìn)行交集提取,得到某個類型(如旅游類、計(jì)算機(jī)類)文檔中的共同特征字。而合集則可以迅速對大文檔進(jìn)行處理,鑒于本軟件的高速度,進(jìn)行1000億的文字統(tǒng)計(jì)也是可能的。
5.自定義過濾詞表,可以使用菜單右鍵查看過濾詞表,添加自己需要的過濾詞。目前使用的過濾詞表為空,用戶可以自行增加。使用菜單保存詞表之后將該文本文件覆蓋軟件目錄下的dict目錄下的compare.txt即可,使用過濾詞可以非常方便的獲得超綱的字有哪些。
6.從剪貼板統(tǒng)計(jì)文字。注意如果先點(diǎn)擊了剪貼板統(tǒng)計(jì)文字,則非中文統(tǒng)計(jì)顯示的是剪貼板里面的非中文,而不是文件里面的非中文