人名や地名などの固有名詞や、「あー」「えー」といったフィラーなどは、事前に学習していなくても、意味がわかることが多いです。このような語彙は想定既知語彙Assumed Known Words として、最上位に置き、すべてテキストカバー率に算入しています。
ただし、有名な固有名詞(例:「東京」)は、一定の意味(例:「日本の首都である」)を事前に学習することが必要なため、想定既知語彙には入れないで、普通名詞と同じ扱いをしています。
小学校卒業までに学習する語であるかどうかをおおよその目安として、100万語あたり7回以上出てくる固有名詞は、おおよそ普通名詞に準じるものとして、想定既知語彙から外しています。
ベースワード・リストには異なり語数3万以上の想定既知語彙がリストされており、大半は固有名詞です。テキストの種類にもよりますが、平均的に2%程度のテキストカバー率を占めることが多いです。