データベース｜松下言語学習ラボ

日本語を読むための語彙データベース

日本語を読むための語彙データベース Ver. 1.11

“TM語彙リスト”をお持ちの方は語彙データベースの最新版に更新してください。データの修正，追加がたくさんあります。

以下の５種類の中から、用途に合うものをダウンロードしてください。

日本語を読むための語彙データベース（研究用）

Ver. 1,0から、下位コーパスの頻度分布の歪度、尖度、下位コーパスごとの頻度順位とその平均などのデータを追加しました。
そのほかにデータの修正はしていません。

異なり語数141950語を３種類のデータベースに分けて表示。（データベースファイルの拡張子は.xlsxです。Excel 2007以降で開いてください。以前のバージョンの場合はコンバーターが必要かもしれません。）

「日本語を読むための語彙データベース（研究用）」Ver 1.1 （141950語）約82MB は三つのデータベースからできています。

以下から一つずつダウンロードしてください。

重要度順語彙データベース (Top 60894) 重要度順位 00001-60894 (42MB)
ダウンロード/Download
想定既知語彙データベースフィラー、記号その他、固有名詞 (16MB)
ダウンロード/Download
使用範囲狭小語彙データベース (24MB) ダウンロード/Download

統計数値など（Statistics etc.）
日本語教育学会2010年春季大会予稿集発表原稿
＝”TM語彙リスト”（データベースの前身）の簡単な紹介です。

日本語を読むための語彙データベース（教師用） (14MB)

ダウンロード/Download

研究用データベースの重要度順語彙データベースの情報を簡略化したものです。通常の教育用にはこれで十分だと思われます。60894語所収。

以下の三つは学習者用に簡略化し、説明などをわかりやすくしたものです。
教師用をさらに簡単にしたものですが，語の配列は，読むためだけでなく，日常生活も考慮されています。
約20000語。一般用と留学生用があります。やさしい日本語で説明をつけました。
初級用の Basic 2500 もあります（簡単な英語の説明つき）。

日本語を読むための語彙データベースの特徴

*書籍約2800万語とインターネットフォーラム（「Yahoo知恵袋」）約500万語からなる最新の語彙頻度のリスト。
--これまで雑誌や新聞に基づくリストはありましたが、書籍の大規模資料に基づくリストはありませんでした。
--書籍に基づくリストは語種分布の一般性や語の安定度の点で新聞や雑誌に基づくリストより優れています。
--書籍のみに基づく欠点をインターネットフォーラムの語彙で補っています。

*10のサブジャンルの頻度から分散度を計算し、総使用頻度を掛け合わせた重要度係数により語彙をランキング。
--分散度を加味することにより、使用範囲の偏っている語を高頻度語彙の範囲から取り除いています。

*語の配列を考え直し，下位コーパスの頻度に重みづけをすることにより，一般用と留学生用の新たな語彙ランク指標を開発。
書きことば語彙ランクとあわせて，３種類のランキングが可能。

*学術テキストの特徴語の指標，レベルを追加し，４大領域の特徴語が抽出可能。

*文芸創作テキストの特徴語の候補を抽出。

現代日本語文字データベース

現代日本語文字データベース (CDJ) Version. 2.1

Ver.2.1 Released on April 10, 2025
©Tatsuhiko Matsushita（松下達彦）

Ver.1をお持ちの方は Ver.2 に更新してくださいますよう、お願いします。

Ver.1からの主な修正点
・2010年の常用漢字表改定を反映させて、人名用漢字も追加。
・学術テキスト（人文・芸術、社会、理工、生物・医学）や文芸テキストに特徴的に用いられる文字の情報を追加。
Ver.2.0からの主な修正点
・日本の小学校教育の漢字の学年配当（文部科学省,2017）の情報を追加しました。

以下のうち、用途に適したものをダウンロードしてください。

CDJ研究用

すべての情報が入っています。すべての文字種が１枚のシートに入っています。
ダウンロード/Download

CDJ教師用

通常の使用にはこれで十分です。漢字、ひらがな、カタカナ、アルファベットが別のシートになっています。
ダウンロード/Download

日中対照漢字語データベース

日中対照漢字語データベース JKVC (Database of Japanese Kanji Vocabulary in Contrast to Chinese)

Version 3.00（2025年9月30日）

Ver.2から再改訂しました。Ver.1 や Ver.2 をお持ちの方は Ver.3 に更新してくださいますよう、お願いします。
主な変更点は以下の通りです。

*意味対応の判定を全面的にチェックして、一部の項目を再判定しました。
　--Ver.1からVer.2への変更では、Ver.1で３名の判定者の判定が一致していないケースを中心に、できるだけ判定基準を統一し、
　２名以上の合議によって１語ずつ判定をやり直し、490項目の判定を変更しました。
　さらにVer.2からVer.3への変更では、新たな判定者により全項目を見直し、疑問のある点については、
　複数の判定者で討議して、225項目の判定を変更しました。
・判定によって独自義が存在してはおかしい場合について修正しました。例えば、日本語のほうが中国語よりも意味が広い場合、中国語の独自義があってはおかしいので、判定の検討を加えたうえで、中国語独自義がないと判定した場合には削除しました。
・一部の語（特に一字語を中心に）につき、標準的な読み方、品詞、語種などにつき、加筆・修正しました。
・意味記述の欄につき、日本語記述と中国語記述を分けました。（ただし、作業の都合上、両言語の記述がまだ混在しています。）

このデータベースの記述には、不完全な記述が残されていますので、その点を了解の上でご利用ください。
今後もデータの修正や加筆により、更新する予定です。ご利用の場合は、バージョンをご確認の上、最新版をご利用ください。

ダウンロード/Download

このデータを利用して研究発表を行う場合は、以下のように引用を入れてください。
　　松下達彦・陳夢夏・王雪竹・陳林柯・黄叢叢・印雨琪・李思雨 (2025)「日中対照漢字語データベース」（Version *.**）（ダウンロードURL）（参照日）

このデータベースの開発過程や分析・考察については、以下の論文をご覧ください。
ただし、表の数値等についてはVer.2とVer.3で少し変わります。最新の数値はVer.3のシートをご覧ください。

松下達彦・陳夢夏・王雪竹・陳林柯（2020）「日中対照漢字語データベースの開発と応用」『日本語教育』177、pp.62-76

日中同形漢語データベース CVD (Contrastive Sino-Japanese Vocabulary Database)

日中同形漢語の書字的類似度 Ver.1.0
日中同形漢語の音韻的類似度 Ver.1.0
…以下の研究成果を、許可をいただいてデータベース上に転載しています。
茅本百合子(1995)「同一漢字における中国語音と日本語の音読みの類似度に関する調査」『広島大学日本語教育学科紀要』5, p.67-75