松下言語学習ラボ

木のイメージ画像

日本語を読むための語彙データベース

日本語を読むための語彙データベース Ver. 1.11

“TM語彙リスト”をお持ちの方は語彙データベースの最新版に更新してください。データの修正,追加がたくさんあります。

以下の5種類の中から、用途に合うものをダウンロードしてください。

日本語を読むためのデータベース(研究用)

Ver. 1,0から、下位コーパスの頻度分布の歪度、尖度、下位コーパスごとの頻度順位とその平均などのデータを追加しました。
そのほかにデータの修正はしていません。

異なり語数141950語を3種類のデータベースに分けて表示。(データベースファイルの拡張子は.xlsxです。Excel 2007以降で開いてください。 以前のバージョンの場合はコンバーターが必要かもしれません。)

「日本語を読むための語彙データベース(研究用)」Ver 1.1 (141950語)約82MB は三つのデータベースからできています。

以下から一つずつダウンロードしてください。

  • 重要度順語彙データベース (Top 60894) 重要度順位 00001-60894 (42MB)
    ダウンロード
  • 想定既知語彙データベース フィラー、記号その他、固有名詞 (16MB)
    ダウンロード
  • 使用範囲狭小語彙データベース (24MB) ダウンロード

統計数値など(Statistics etc.)
日本語教育学会2010年春季大会予稿集発表原稿
=”TM語彙リスト”(データベースの前身)の簡単な紹介です。

日本語を読むための語彙データベース(教師用) (14MB)

ダウンロード

研究用データベースの重要度順語彙データベースの情報を簡略化したものです。通常の教育用にはこれで十分だと思われます。60894語所収。

以下の三つは学習者用に簡略化し、説明などをわかりやすくしたものです。
教師用をさらに簡単にしたものですが,語の配列は,読むためだけでなく,日常生活も考慮されています。
約20000語。一般用と留学生用があります。やさしい日本語で説明をつけました。
初級用の Basic 2500 もあります(簡単な英語の説明つき)。

日本語を勉強する人のための語彙データベース(一般用)

ダウンロード

日本語を勉強する人のための語彙データベース(留学生用)

ダウンロード

日本語を勉強する人のための語彙データベース: Basic 2500

ダウンロード

日本語を読むための語彙データベースの特徴

*書籍約2800万語とインターネットフォーラム(「Yahoo知恵袋」)約500万語からなる最新の語彙頻度のリスト。
--これまで雑誌や新聞に基づくリストはありましたが、書籍の大規模資料に基づくリストはありませんでした。
--書籍に基づくリストは語種分布の一般性や語の安定度の点で新聞や雑誌に基づくリストより優れています。
--書籍のみに基づく欠点をインターネットフォーラムの語彙で補っています。

*10のサブジャンルの頻度から分散度を計算し、総使用頻度を掛け合わせた重要度係数により語彙をランキング。
--分散度を加味することにより、使用範囲の偏っている語を高頻度語彙の範囲から取り除いています。

*語の配列を考え直し,下位コーパスの頻度に重みづけをすることにより,一般用留学生用の新たな語彙ランク指標を開発。
書きことば語彙ランクとあわせて,3種類のランキングが可能。

*学術テキストの特徴語の指標,レベルを追加し,4大領域の特徴語が抽出可能。

*文芸創作テキストの特徴語の候補を抽出。

現代日本語文字データベース

現代日本語文字データベース (CDJ) Version. 2.0

Released on January 2, 2014
松下達彦© Tatsuhiko Matsushita

Ver. 1 をお持ちの方は Ver.2 に更新してくださいますよう、お願いします。

Ver. 1.0 からの主な修正点
・2010年の常用漢字表改定を反映させて、人名用漢字も追加。
・学術テキスト(人文・芸術、社会、理工、生物・医学)や文芸テキストに特徴的に用いられる文字の情報を追加。

以下のうち、用途に適したものをダウンロードしてください。

CDJ研究用

すべての情報が入っています。
ダウンロード

CDJ教師用

通常の使用にはこれで十分です。
ダウンロード

以下、工事中

CDJ留学生用

学習者が必要とする情報だけにしてあります。学術分野の頻度に重みづけをして順位が計算されています。

CDJ一般用

学習者が必要とする情報だけにしてあります。文芸やインターネットなど、
より日常領域に近い分野の頻度に重みづけがされています。

CDJ Basic 450

ひらがな、カタカナ、アルファベットのほか、初級学習者が学習すべき最も基本的な450漢字のみ収録してあります。

日中対照漢字語データベース

日中対照漢字語データベース

Version 1.00 (2017年11月26日)

このデータベースの記述には、不完全な点やエラーが残されていますので、その点を了解の上でご利用ください。
今後、データの修正を続けて、随時、情報を更新する予定です。
ご利用の場合は、バージョンをご確認の上、最新版をご利用ください。

ダウンロード/Download
(2017年度日本語教育学会秋季大会・予稿集原稿) 「松下・陳・王・陳(2017)日中対照漢字語データベースの開発と応用」
(2017年度日本語教育学会秋季大会・発表ポスター)「松下・陳・王・陳(2017)日中対照漢字語データベースの開発と応用」

日中同形漢語データベース