このソフトの中には、一つ一つの単語にランキングをつけた「ベースワード」リストがあります。
語彙または漢字のレベルを数字で設定して判定ボタンを押すと、まずテキストを語や字に切り分ける作業をします。
(語の解析はMeCabという解析ソフトとUniDicという解析用の辞書を使っています。解析の単位は、UniDicの定める「短単位」と呼ばれる単位です。)
次に、切り分けた語/字をベースワード・リストと照合し、一致した語/字のうち、設定した語彙/字レベル以下のランクのものだけを数えます。
(延べ語数=同じ語が複数回出てきてもすべて別々に数えた場合の語数 を数えます。字の場合も同様です。)それを、ベースワード・リストに存在しない語/字を除いた全体の語数/字数で割ります。
これが「テキストカバー率」です。