日本語を読むための語彙データベース
日本語を読むための語彙データベース Ver. 1.11
以下の5種類の中から、用途に合うものをダウンロードしてください。
日本語を読むための語彙データベース(研究用)
Ver. 1,0から、下位コーパスの頻度分布の歪度、尖度、下位コーパスごとの頻度順位とその平均などのデータを追加しました。
そのほかにデータの修正はしていません。
異なり語数141950語を3種類のデータベースに分けて表示。(データベースファイルの拡張子は.xlsxです。Excel 2007以降で開いてください。 以前のバージョンの場合はコンバーターが必要かもしれません。)
「日本語を読むための語彙データベース(研究用)」Ver 1.1 (141950語)約82MB は三つのデータベースからできています。
以下から一つずつダウンロードしてください。
- 重要度順語彙データベース (Top 60894) 重要度順位 00001-60894 (42MB)
ダウンロード/Download - 想定既知語彙データベース フィラー、記号その他、固有名詞 (16MB)
ダウンロード/Download - 使用範囲狭小語彙データベース (24MB) ダウンロード/Download
統計数値など(Statistics etc.)
日本語教育学会2010年春季大会予稿集発表原稿
=”TM語彙リスト”(データベースの前身)の簡単な紹介です。
日本語を読むための語彙データベース(教師用) (14MB)
ダウンロード/Download研究用データベースの重要度順語彙データベースの情報を簡略化したものです。通常の教育用にはこれで十分だと思われます。60894語所収。
教師用をさらに簡単にしたものですが,語の配列は,読むためだけでなく,日常生活も考慮されています。
約20000語。一般用と留学生用があります。やさしい日本語で説明をつけました。
初級用の Basic 2500 もあります(簡単な英語の説明つき)。
日本語を勉強する人のための語彙データベース(一般用)
ダウンロード/Download日本語を勉強する人のための語彙データベース(留学生用)
ダウンロード/Download日本語を勉強する人のための語彙データベース: Basic 2500
ダウンロード/Download日本語を読むための語彙データベースの特徴
*書籍約2800万語とインターネットフォーラム(「Yahoo知恵袋」)約500万語からなる最新の語彙頻度のリスト。
--これまで雑誌や新聞に基づくリストはありましたが、書籍の大規模資料に基づくリストはありませんでした。
--書籍に基づくリストは語種分布の一般性や語の安定度の点で新聞や雑誌に基づくリストより優れています。
--書籍のみに基づく欠点をインターネットフォーラムの語彙で補っています。
*10のサブジャンルの頻度から分散度を計算し、総使用頻度を掛け合わせた重要度係数により語彙をランキング。
--分散度を加味することにより、使用範囲の偏っている語を高頻度語彙の範囲から取り除いています。
*語の配列を考え直し,下位コーパスの頻度に重みづけをすることにより,一般用と留学生用の新たな語彙ランク指標を開発。
書きことば語彙ランクとあわせて,3種類のランキングが可能。
*学術テキストの特徴語の指標,レベルを追加し,4大領域の特徴語が抽出可能。
*文芸創作テキストの特徴語の候補を抽出。