ランクづけのもとになったデータは、国立国語研究所の「現代日本語書き言葉均衡コーパス」2009年モニター版に納められた言語資料、約3300万語(書籍約2800万語、「Yahoo知恵袋」約500万語)の使用頻度です。開発者は、この資料を以下の下位ジャンルに分け、それぞれの頻度も数え、一つ一つの語について、分散度(=どの程度幅広く用いられているか)を計算し、頻度と分散度を掛け合わせた運用度係数(usage coefficient、修正頻度adjusted frequencyとも呼ばれる)を使ってランクを決めています。つまり、頻度が高くても、あるジャンルに偏って用いられるような語は、順位が下げられています。
下位ジャンル
文芸(1.文芸創作)、人文・芸術(2.言語・哲学、3.歴史・民俗、4.その他人文)、社会科学(5.政治・法律、6.経済・商業、7.その他社会科学)、理工系自然科学(8.科学・技術)、生物・医学系自然科学(9.生物・医学・生活科学)、インターネットQ&Aフォーラム(10.Yahoo「知恵袋」)
また、頻度を数えるのに適した話しことばの言語資料がないため、書きことばに基づいたデータだけで順位を決めると、日常生活に必要な基本語のランクが大きく下がってしまいます。この問題を解決するため、「留学生用」「一般用」のランクでは、旧日本語能力試験出題基準の4級および3級の語彙を「初級語彙」として優先的に上位に配置しています(ただし、時代遅れの語など一部は除外)。
このような考え方で決めたランクがおおよそ適切であることは、さまざまなコーパス(一定の条件で集められた大規模言語資料)でテストしたテキストカバー率のデータによって実証されています。