松下言語学習ラボ

木のイメージ画像

日本語を読むための語彙データベース

日本語を読むための語彙データベース Ver. 1.11

“TM語彙リスト”をお持ちの方は語彙データベースの最新版に更新してください。データの修正,追加がたくさんあります。

以下の5種類の中から、用途に合うものをダウンロードしてください。

日本語を読むための語彙データベース(研究用)

Ver. 1,0から、下位コーパスの頻度分布の歪度、尖度、下位コーパスごとの頻度順位とその平均などのデータを追加しました。
そのほかにデータの修正はしていません。

異なり語数141950語を3種類のデータベースに分けて表示。(データベースファイルの拡張子は.xlsxです。Excel 2007以降で開いてください。 以前のバージョンの場合はコンバーターが必要かもしれません。)

「日本語を読むための語彙データベース(研究用)」Ver 1.1 (141950語)約82MB は三つのデータベースからできています。

以下から一つずつダウンロードしてください。

統計数値など(Statistics etc.)
日本語教育学会2010年春季大会予稿集発表原稿
=”TM語彙リスト”(データベースの前身)の簡単な紹介です。

日本語を読むための語彙データベース(教師用) (14MB)

ダウンロード/Download

研究用データベースの重要度順語彙データベースの情報を簡略化したものです。通常の教育用にはこれで十分だと思われます。60894語所収。

以下の三つは学習者用に簡略化し、説明などをわかりやすくしたものです。
教師用をさらに簡単にしたものですが,語の配列は,読むためだけでなく,日常生活も考慮されています。
約20000語。一般用と留学生用があります。やさしい日本語で説明をつけました。
初級用の Basic 2500 もあります(簡単な英語の説明つき)。

日本語を勉強する人のための語彙データベース(一般用)

ダウンロード/Download

日本語を勉強する人のための語彙データベース(留学生用)

ダウンロード/Download

日本語を勉強する人のための語彙データベース: Basic 2500

ダウンロード/Download

日本語を読むための語彙データベースの特徴

*書籍約2800万語とインターネットフォーラム(「Yahoo知恵袋」)約500万語からなる最新の語彙頻度のリスト。
--これまで雑誌や新聞に基づくリストはありましたが、書籍の大規模資料に基づくリストはありませんでした。
--書籍に基づくリストは語種分布の一般性や語の安定度の点で新聞や雑誌に基づくリストより優れています。
--書籍のみに基づく欠点をインターネットフォーラムの語彙で補っています。

*10のサブジャンルの頻度から分散度を計算し、総使用頻度を掛け合わせた重要度係数により語彙をランキング。
--分散度を加味することにより、使用範囲の偏っている語を高頻度語彙の範囲から取り除いています。

*語の配列を考え直し,下位コーパスの頻度に重みづけをすることにより,一般用留学生用の新たな語彙ランク指標を開発。
書きことば語彙ランクとあわせて,3種類のランキングが可能。

*学術テキストの特徴語の指標,レベルを追加し,4大領域の特徴語が抽出可能。

*文芸創作テキストの特徴語の候補を抽出。




現代日本語文字データベース

現代日本語文字データベース (CDJ) Version. 2.0

Released on January 2, 2014
松下達彦© Tatsuhiko Matsushita

Ver. 1 をお持ちの方は Ver.2 に更新してくださいますよう、お願いします。

Ver. 1.0 からの主な修正点
・2010年の常用漢字表改定を反映させて、人名用漢字も追加。
・学術テキスト(人文・芸術、社会、理工、生物・医学)や文芸テキストに特徴的に用いられる文字の情報を追加。

以下のうち、用途に適したものをダウンロードしてください。

CDJ研究用

すべての情報が入っています。
ダウンロード/Download

CDJ教師用

通常の使用にはこれで十分です。
ダウンロード/Download

以下、工事中

CDJ留学生用

学習者が必要とする情報だけにしてあります。学術分野の頻度に重みづけをして順位が計算されています。

CDJ一般用

学習者が必要とする情報だけにしてあります。文芸やインターネットなど、
より日常領域に近い分野の頻度に重みづけがされています。

CDJ Basic 450

ひらがな、カタカナ、アルファベットのほか、初級学習者が学習すべき最も基本的な450漢字のみ収録してあります。




日中対照漢字語データベース

日中対照漢字語データベース JKVC (Database of Japanese Kanji Vocabulary in Contrast to Chinese)


Version 2.00(2020年4月21日)

大幅に改訂しました。Ver. 1 をお持ちの方は Ver.2 に更新してくださいますよう、お願いします。主な変更点は以下の通りです。

*意味対応の判定を全面的に見直しました。
 --Version 1で3名の判定者の判定が一致していないケースを中心に、できるだけ判定基準を統一し、2名以上の合議によって1語ずつ判定をやり直し、487項目の判定を変更しました。

*判定によって独自義が存在してはおかしい場合について修正しました。例えば、日本語のほうが中国語よりも意味が広い場合、中国語の独自義があってはおかしいので、判定の検討を加えたうえで、中国語独自義がないと判定した場合には削除しました。

*一部の語(特に一字語を中心に)につき、標準的な読み方、品詞、語種などにつき、加筆・修正しました。

*意味記述の欄につき、日本語記述と中国語記述を分けました。(ただし、作業の都合上、両言語の記述がまだ混在しています。)

このデータベースの記述には、不完全な記述が残されていますので、その点を了解の上でご利用ください。
今後、データの修正を続けて、随時、情報を更新する予定です。ご利用の場合は、バージョンをご確認の上、最新版をご利用ください。

ダウンロード/Download

このデータベースの開発過程や分析結果については、以下の論文をご覧ください。

松下達彦・陳夢夏・王雪竹・陳林柯(2020)「日中対照漢字語データベースの開発と応用」『日本語教育』177、pp.62-76

(非会員の方でも日本語教育学会「マイページ」より550円で購入可能です。)(2020年12月25日)

日中同形漢語データベース CVD (Contrastive Sino-Japanese Vocabulary Database)