『日本語のためのCHILDESマニュアル』 目次 目次 M-1 まえがき 「日本語のためのCHILDESマニュアル」の出版にむけて 大嶋百合子 M-7 Adapting the CHILDES System for Japanese Language Studies Brian MacWhinney M-11 第1部 JCHAT 入力システム、CHILDESデータベース P1-1 第1章 トランスクリプト作成の方法 森川尋美 P1-3 1.1 トランスクリプト作成の原則 P1-3 1.1.1 トランスクリプトのコンピュータ・ファイル化による新しい可能性 P1-3 1.1.2 用心すべきこと P1-4 1.1.3 転記とコーディング P1-5 第2章 表記システムCHAT 宮田Susanne・中則夫 P1-7 2.1 はじめに P1-7 2.2 データ表記システムの目標 P1-8 2.2.1 明確さ P1-8 2.2.2 読みやすさ P1-9 2.2.3 入力のしやすさ P1-9 2.3 CHATシステムの上手な使い方 P1-9 2.3.1 minCHAT P1-10 2.3.2 midCHAT P1-10 2.3.3 maxCHAT P1-11 2.3.4. どのように表記するか迷ったとき P1-11 2.3.5 データ入力に無駄な時間を使わない方法 P1-12 2.4 minCHAT P1-12 2.4.1 ファイルが満たすべき形式 P1-12 2.4.2 発話が満たすべき形式 P1-14 2.4.3 データ情報ファイル (documentation file) P1-16 2.4.4 ファイル形式のチェック P1-17 2.4.5 ASCIIファイルの作成方法 P1-17 2.5 JCHATとminJCHAT P1-18 2.5.1 ファイルが満たすべき形式 P1-18 2.5.2 発話が満たすべき形式 P1-19 第3章 ローマ字表記:ヘボンと訓令 南雅彦 P1-25 3.1 はじめに P1-25 3.1.1 日本語のローマ字表記:ローマ字の綴り方の歴史 P1-25 3.1.2 訓令式ローマ字:ヘボン式、日本式との相違 P1-27 3.1.3 ローマ字の綴り方:訓令式そえがきとヘボン式表記 P1-29 第4章 ファイル・ヘッダー 宮田Susanne・岩立志津夫 P1-37 4.1 不可欠のヘッダー P1-37 4.2 変更のないヘッダー P1-38 4.3 変更可能なヘッダー P1-39 第5章 分かち書き 南雅彦 P1-43 5.1 はじめに P1-43 5.2 学校文法における「分かち書き」 P1-43 5.3 JCHATにおける「分かち書き」: 基本的合意事項 P1-44 第6章 語をどのように転記するか 宮田Susanne P1-49 6.1 言語習得者が使う独自の語 P1-50 6.2 聞き取りにくい語 P1-52 6.3 省略・脱落した部分 P1-53 6.4 固定した表現 P1-54 6.5 文字・数字など P1-54 6.5.1 文字 P1-54 6.5.2 頭字語 P1-55 6.5.3 数字 P1-55 6.5.4 方言 P1-55 6.5.5 バイリンガル・データ P1-56 6.5.6 その他の語のリスト P1-57 第7章 メイン・ラインに形態素をどのように表記するか 南雅彦・森川尋美 P1-73 7.1 はじめに P1-73 7.2 形態素分析: オプショナル P1-73 7.2.1 形態素化のためのコード P1-73 7.2.2 接頭辞と接尾辞 P1-75 7.2.3 角括弧の中に形態素を記入する置き換え記号(Replacement Symbol) P1-76 7.2.4 用言の形態素分析 P1-76 A 動詞の活用の種類:学校文法 P1-76 B ローマ字表記に基づく南式分析 P1-78 C 森川式形態素分析方法? P1-83 第8章 発話の区切り方と調子単位 宮田Susanne・岩立志津夫 P1-93 8.1 基本的な終端記号 P1-93 8.2 調子単位の表記の仕方 P1-93 8.2.1 発話の終端部での調子単位 P1-93 8.2.2 発話中での調子単位 P1-94 8.3 コンマの使い方 P1-94 8.4 休止と持続 P1-95 8.5 特殊な終端記号 P1-96 8.6 発話の区切り方 P1-97 8.6.1 繰り返し P1-97 8.6.2 列挙 P1-98 9章 語内の韻律 宮田Susanne・寺尾 康 P1-101 9.1 はじめに P1-101 9.1.1 強勢の表記法(英語など) P1-101 9.1.2 音節の長音化(英語) P1-102 9.1.3 音節間の間断(英語) P1-102 9.2 日本語のアクセントの特徴と表記の試み P1-102 9.2.1 モーラ・音節、語の長音化(日本語) P1-103 9.2.2 モーラ・音節間の間断(日本語) P1-103 第10章 スコープ記号 宮田Susanne・中則夫 P1-105 10.1 はじめに P1-105 10.2 ポスト・コード P1-110 第11章 ディペンデントティア 宮田Susanne・中則夫 P1-113 11.1 はじめに P1-113 11.2 標準的なディペンデントティア P1-113 11.3 独自のディペンデントティアを作る P1-118 11.4 同時関係 P1-118 11.5 コードスイッチングとボイススイッチング P1-119 第12章 日本語のためのUNIBET 寺尾 康 P1-121 12.1 UNIBETとは P1-121 12.2 日本語のUNIBET表(第1版) P1-122 第13章 日本語のためのエラー・コーディング 寺尾 康 P1-125 13.1 はじめに P1-125 13.2 言い誤りの定義 P1-126 13.3 収集方法 P1-127 13.4 コーディングの形態 P1-127 第14章 JCHATファイルの具体例 大嶋百合子 P1-133 14.1 はじめに P1-133 14.2 複雑さの異なるファイルの例 P1-133 14.3 ヘボン式ローマ字表記によるJCHATフアイルの例 P1-136 14.4 訓令式ローマ字表記のファイルの例 P1-142 14.5 仮名ファイルの例 P1-144 第15章 JCHAT記号一覧表 宮田Susanne・中則夫 P1-149 第16章 CEDによる入力 大嶋百合子 P1-155 16.1 はじめに P1-155 16.2 データの入力 P1-155 16.3 スピーカーコードの登録と短文登録:マクロ作成 P1-157 16.3.1 方法1:スピーカーコードの登録 P1-157 16.3.2 方法2:マクロ短文登録 P1-158 16.4 保存と終了 P1-159 16.5 編集 P1-159 16.6 作業デイレクトリー(フォルダー)の作り方 P1-160 16.7 CHECKプログラム P1-160 16.8 仮名ファイルの入力 P1-161 第17章 JCHANGE 中則夫 P1-163 17.1 はじめに P1-163 17.2 準備と使用方法1 P1-163 17.2.1 ファイル構成 P1-163 17.2.2 下準備(一般編) P1-164 17.2.3 一般的なコマンド形式 P1-165 17.2.4 コマンド入力を楽にする方法(RECALL プログラム) P1-166 17.3 ローマ字変換(およびその逆変換) P1-166 17.3.1 なぜ、この変換が必要なのか P1-166 17.3.2 準備 P1-167 17.3.3 使い方 P1-167 17.4 かな--ローマ字変換 P1-168 17.4.1 なぜこの変換が必要なのか P1-168 17.4.2 準備 P1-169 17.4.3 制限事項 P1-169 17.4.4 使い方 P1-169 17.5 助詞結合変換 P1-170 17.5.1 なぜこの変換が必要か P1-170 17.5.2 制限事項 P1-170 17.5.3 準備 P1-171 17.5.4 使い方 P1-171 17.6 準備と使用方法2 P1-171 17.6.1 JGAWKの概要と入手方法 P1-172 17.6.2 JGAWKの一般的な使用方法 P1-173 17.6.3 ファイル構成 P1-173 17.7. 漢字--かな変換 P1-173 17.7.1 なぜ、この変換が必要なのか P1-173 17.7.2 概要と特性 P1-174 17.7.3 準備と使用方法 P1-174 17.8 同音異義語の自動挿入 P1-174 17.8.1 なぜこの変換が必要なのか P1-174 17.8.2 準備と使用方法 P1-175 17.9 分かち書きの半自動化 P1-175 17.9.1 なぜこの変換が必要なのか P1-175 17.9.2 制限事項 P1-175 17.9.3 準備と使用方法 P1-176 17.10 サポート P1-176 第18章 日本語のスクリプト:文字体系 寺尾 康 P1-183 18.1 はじめに P1-183 18.2 文字の起源 P1-183 18.2.1 漢字 P1-183 18.2.2 ひらがな・カタカナ P1-184 18.2.3 ローマ字185 18.2.3 JCHATのローマ字表記 P1-185 18.3 現代日本語の文字使用 P1-186 18.4 おわりに P1-187 第19章 CHILDESのデータベース 小椋たみ子 P1-189 第2部 CLAN分析プログラム 中 則夫 P2-1 第20章 CLAN 入門 P2-3 20.1 MinCLANに慣れる P2-3 第21章 MS-DOS 上でCLANを動かす場合 P2-5 21.1 CLANのインストール P2-5 21.2 ディレクトリー構造に慣れる P2-6 21.3 デフォールトディレクトリー P2-8 21.4 CLANコマンド P2-8 21.5 コマンドラインインタープリテーション P2-9 21.6 リダイレクション P2-9 21.7 ヘルプの利用方法 P2-9 第22章 Macintosh 上でCLANを動かす場合 P2-11 22.1 ディレクトリー設定のしかた P2-11 22.2 ファイルの指定のしかた P2-11 22.3 エディターを選ぶ P2-12 22.4 シェルコマンド P2-12 22.5 メニューの使い方 P2-15 第23章 プログラム P2-17 23.1 CED -- CHILDES エディター P2-17 23.1.1 エディターモード P2-17 23.1.2 CEDにおける非ローマン文字と非ASCII文字 P2-18 23.1.3 CEDの環境設定とオプション P2-19 23.1.4 モード切り替え P2-20 23.1.5 Sonic作成モード P2-20 23.1.6 Sonic再生モード P2-22 23.1.7 解析選択モード P2-22 23.1.8 コーダーモード P2-22 23.1.9 Observorを使ったコード化 P2-25 23.1.10 コマンドリファレンス P2-26 23.2 CHAINS -- インタラクションコードを追跡 P2-27 23.3 CHECK -- データ構造のチェック P2-33 23.4 CHIP -- インタラクションの分析 -- Jeff Sokolov P2-38 23.5 CHSTRING -- ファイル内の文字列変換 P2-45 23.6 COLUMNS -- CHAT ファイルのコラム表示 P2-48 23.7 COMBO -- ブール関数を用いた検索 P2-50 23.7.1 検索文字列の指定方法 P2-51 23.7.2 検索文字列の例 P2-52 23.7.3 ファイルに収めた検索文字列を参照する場合 P2-53 23.7.4 COMBO におけるクラスターペア P2-53 23.7.5 クローズメイトの検索方法 P2-53 23.7.6 文末にある単語の検索方法 P2-54 23.7.7 COMBO を使った分析範囲の制限のしかた P2-54 23.8 COOCCUR -- 共起分析 P2-57 23.9 DATES -- 年齢と日付の計算 P2-59 23.10 DIST -- コードや単語間の距離 P2-59 23.11 DSS -- 文発達指標 (Developmental Sentence Score) P2-61 23.11.1 CHAT ファイル形式に関する条件 P2-61 23.11.2 50 発話分のコーパスの選択 P2-62 23.11.3 DSS の自動計算 P2-63 23.11.4 対話モードによる計算 P2-63 23.11.5 DSS 出力 P2-64 23.11.6 DSS サマリー P2-65 23.12 FLO -- メインラインを簡素にする P2-68 23.13 FREQ -- 出現頻度計算 P2-68 23.13.1 FREQ が計算しないもの P2-69 23.13.2 特定の語彙を計算する場合 P2-69 23.13.3 FREQ とワイルドカードの併用のしかた P2-69 23.13.4 FREQ の出力先の指定方法 P2-71 23.13.5 FREQ の適用を制限する方法 P2-72 23.13.6 共用されている語彙を調べる P2-73 23.14 FREQMERG -- FREQ の出力ファイルを結合する P2-75 23.15 GEM -- 必要な部分にタグをつける P2-76 23.16 GEMFREQ -- 行動の種類による出現頻度計算 P2-79 23.17 GEMLIST -- ファイル内の GEM 分布の一覧 P2-81 23.18 KEYMAP -- 偶然性の分析 P2-82 23.19 KWAL -- キーワードと行 P2-84 23.19.1 KWAL の適用を制限する方法 P2-84 23.20 LINES -- 行番号を挿入 P2-87 23.21 MAXWD -- 文字列の長さを計算 P2-88 23.22 MLT -- 平均ターン長 P2-90 23.23 MLU -- 平均発話長 P2-93 23.24 MODREP -- ティア間の単語一致検索 P2-97 23.24.1 分析への取り込みと除外 P2-98 23.24.2 %mod 行の使い方 P2-99 23.24.3 MODREP と COMBO -- ティア間での COMBO 応用 P2-99 23.25 MOR -- 形態素解析 P2-101 23.26 PAGE -- ファイルを一ページごとに表示 P2-104 23.27 PHONFREQ -- 音韻頻度分析 P2-104 23.28 POSFREQ -- 位置頻度分析 P2-106 23.29 RECALL -- コマンド登録とバッチファイル実行 P2-108 23.30 RELY -- コードの信頼性を測定 P2-110 23.31 SALTIN -- SALT 形式のファイルを変換 P2-111 23.32 SLIDE -- 時間軸に沿ってファイルを閲覧 P2-112 23.33 STATFREQ -- 統計分析を出力 P2-114 23.34 TEXTIN -- 通常テキストを CHAT 形式に変換 P2-115 23.35 WDLEN -- 単語長のグラフ P2-116 第24章 CLAN オプション P2-119 24.1 オプション機能の説明(アルファベット順) P2-119 24.2 検索用のメタキャラクタ P2-126 第25章 プログラムのテスト、バグ、修正 P2-129 25.1 CLAN のテスト P2-129 25.2 バグリポート P2-129 25.3 プログラム修正に関する要求 P2-129 25.4 日本語および国内のサポート P2-130 あとがき JCHATプロジェクト:組織、活動、今後の課題 大嶋百合子 A-1 日本語と英語のマニュアルの対応表 A-4 著者一覧 A-6 まえがき 「日本語のためのCHILDESマニュアル」の出版にむけて 大嶋百合子 自然な会話場面における子供の自発的な発話に基づいて、その発達過程をたどっ ていく言語発達研究は、データ収集とその文字化に膨大な時間がかかるため、従 来、一人とか二人というような少数のケースに基づく研究しかできなかった。こ の限界を打開し、言語発達研究が真の科学として発展していくのに不可欠な三つ の手段の開発を提唱したのが、コンピュータを利用した国際的な言語データ共有 システムCHILDES(Child Langauage Exchange System)プロジェクトである。つ まり, (1)世界中の研究者がこつこつと収集したデータをコンピュータ化しお互いに 共有できるような国際的な言語データ共有システムをつくる、 (2)言語データをコンピュータに共通の方式で入力するためのフォーマットを 開発する。 (3)コンピュータ化した言語データを自動的に分析するプログラムを開発する、 というのが、CHILDES の三つの最大目標である。1984年に カーネギーメロン大 学のBrianMacWhinneyとハーバード大学のCatherine Snowの両氏を中心にして確 立されて以来、年々CHILDES に提供されるデータは増大し、分析プログラムも研 究者のニーズにあわせて続々開発され、欧米の言語発達研 究の中心的役割を果 たしている。また、CHILDES は、いわゆる言語発達研究者だけでなく、社会言語 学、失語症や言語障害、外国語学習などの研究者の間でも広く利用されている。 最近のコンピュータの飛躍的な進歩を背景に言語データをコンピュータ化するシ ステムやグループがCHILDES以外にも出現しているが、CHILDES ほど、広く利用 されている言語データ共有システムはないといっても過言ではないであろう。 「日本語のデータが集まらずに困っている。CHATの日本語版を手伝ってもいい と思っているのだが」とMacWhinney氏に言われたのは、1992年の12月末のことだ。 私自身は、CHILDESの入力方式と分析プログラムが始めて使用可能になった1988 年から英語の発話データの転記と分析に使用していた。近い将来、日本の子供の 発話データを収集して、英語を話すカナダの子供のデータと比較したいと思って いたが、日本における子供の発話データの状況は、全くわからなかった。また、 CHILDESを使用している研究者の状況もわからなかった。そこで、「どういう状 況なのか日本の研究者にコンタクトしてもいいですよ。」と、引き受けて始まっ たのが、JCHAT Japanese CHILDES プロジェクトである。「日本には、たぶん10 人ぐらいCHATを使っている研究者がいると思うが、誰からも連絡がない。日本の 研究者は閉鎖的ではないか。」と MacWhinney氏にいわれて、日本の研究者がそ ういふうに見られているのは、非常に残念な気がして、そうでないことを示さね ばという気持も大きく働いたのだと思う。 反響は意外と大きく、翌年の4月末 には、電子メールや郵便で送ったアンケートに対する回答が15人を超え、1993年 5月初旬にJCHATグループとして名乗りをあげてからは、メンバー数は雪だるま 式に増え、現在では、北米、ヨーロッパ、オーストラリア、日本のメンバーをあ わせると、80人を超す大所帯となった。 CHILDESのデータベースには、現在、英語を始め全部で22カ国語の発話データ が収められているが、日本語のデータは、このプロジェクトが開始するまでは、 デンマーク大学の林真理子氏により提供されたデンマーク語と日本語のバイリン ガルの子供のデータ以外は、皆無であった。アンケート調査 から日本語の入力 ファイルを作る方法が確立していないことがその主な原因であることが判明した ので、1993年5月にJCHATプロジェクトとして発足して以来、日本語の入力方式の 開発が本プロジェクトの活動の中心となっている。愛知淑徳短期大学の宮田 Susanne氏が、ヘボン式ローマ字を使用して、また、ハーバード大学の南雅彦氏 は訓令式ローマ字を使用して、既に日本語の発話データを入力しておられたので、 両方式を叩き台にして、電子メールでCHATの日本語版の開発のためのディスカッ ションが行われた。特に、6月にカンザス大学の森川尋美氏が電子メールネット ワークのマネージャーを引き受けてくださってからは、宮田(愛知淑徳短期大学)、 南(ハーバード大学)、中(大阪学院大学)、森川(カンザス大学)、松岡(コ ネチカット大学)、MacWhinney(カーネーギーメロン大学)の各氏と私(マッギ ル大学)の7人のJCHATメンバーの間で毎日のように活発なディスカッションが行 われた。この電子メールのディスカションでこのマニュアルの原型ができあがっ たといってもよいだろう。その8月に日本に一時帰国した時には、11、12日の2 日間、大津由紀雄氏の主催で、慶応義塾大学で日本の有志メンバーと第一回 JCHAT会議を開いた。電子メールで話し合われた問題を整理し、CHATの日本語版 JCHATの最小限必要な基準minJCHATの合意事項をはじめ、ローマ字表記、単語の 表記の仕方、日本語の音韻表記 UNIBET、分かち書きや形態素分割など様々な問 題が話し合われた。また、プロジェクトとしてどう進めて行くか、助成金はどの ように調達するかなど、管理面の問題も話し合われ、JCHATプロジェクトの原型 ができあがったといえよう。この会議に出席されたメンバーのうち、特に、大津 由紀雄(慶応義塾大学)、佐野けい子(慶応義塾大学)、栗山容子(国際其督教 大学)、岩立志津夫(静岡大学)、寺尾康(常葉学院短期大学)、宮田Susanne (愛知淑徳短期大学)、中則夫(大阪学院大学)、小椋たみ子(神戸大学)の各 氏には、それ以後も、日本在住の有志メンバーとしていろいろな形でこのプロジェ クトのために貢献していただいている。 このJCHAT会議以後もメンバー有志によりマニュアル 作成の準備が続けられた が、1994年7月より1995年6月までの一年間の日本国際交流基金の助成により、 日本語の発話データのローマ字による入力方式の開発とその解説書の出版のため の活動が軌道にのった。その活動の一貫として、1994年8月9日から11日まで、 宮田、大野、両氏の主催で、愛知淑徳短期大学で第二回JCHAT会議が 開かれ、日 本語のマニュアルの編集会議、及び、日本語のデータを入力する予定の会員向け の小講習会が 行われた。編集会議には、各章の担当者をはじめ、コメンターと して大津、佐野、岩立、大野、小椋、の各氏が参加された。マニュアルについて は、当初は日本語だけに適用される基準、ルールだけを補遺のような形でまとめ る予定であったが、第一回JCHAT会議で日本語に適用される基準、ルールだけで なく、CHAT、CLAN、データベースのすべてについて、日本語による簡単な解説書 がほしいという要望がでた。幸い国際交流基金から、マニュアル出版のための編 集会議と出版費を含めた研究助成が出たので、大嶋、MacWhinneyの共同編集で、 英語のマニュアルの全内容を取り入れた、独立したマニュアルとして出版するこ とになった。 マニュアルの構成と使い方 マニュアルは入力方式の解説に焦点をあわせた第1部とCLAN分析プログラムお よびその使い方を解説した第2部からなる。CHILDESにおさめられたデータベース は膨大なので、今回は時間の関係上、簡単に一覧表の形にまとめて、第1部第19 章に含めた。また、あとがきに、JCHATプロジェクトの組織、活動、今後の課題 をまとめた。このまえがきに続けて、共同編集者であるMacWhinney氏により、 CHILDESプロジェクトの歴史、理念、活動、将来、および、言語発達研究におけ るCHILDESプロジェクトとJCHATプロジェクトの意義がわかりやすくまとめられて いる。このマニュアルを利用する方には、必ず読んでいただきたい。第1章から 第18章までの入力方式に関する解説は、著者の方々に、日本語のデータを入力す ることを念頭において解説するようにしていただいた。従って、英語のマニュア ルの内容にもとづいていても、章によっては、構成も、内容も、解説の仕方もか なり違う。たとえば、このマニュアルの第2章にまとめられているminJCHATのルー ルは、日本語だけにあてはまる基本的合意事項で、プロジェクト発足当初の電子 メールのディスッカションをまとめたもので、英語のマニュアルにはない内容で ある。もちろん、minJCHAT以外の部分は、英語のマニュアルの第2章「The CHAT transcription system」にそって解説されている。 第6章の「語をどのように転記するか」に含まれている様々なリストは、宮田 氏が日本語のデータを入力するために既に作成していたリストを、電子メールディ スカッションに基づいて追加、改訂したものである。バイリンガルデータを扱っ ている研究者の便宜をはかって、バイリンガルデータの表記の仕方についても、 この章の最後に簡単にまとめられてあるが、これは、英語のマニュアルの第4章 「Transcribing Words」には含まれていない内容である。 第7章「メインラインに形態素をどのように表記するか」の南式、森川式は、 南、森川、各氏が、それぞれの理論、立場にもとづいて日本語の用言に焦点をあ ててJCHAT用に開発していただいたものである。JCHATメンバーの要請にこたえて、 いわゆる、学校文法に基づく形態素分割についても、南氏にまとめていただいた。 発話を語に分かち書きするのは、JCHATの基本合意事項で、日本語のデータの入 力の際に皆さんにまもっていただきたいルールだが、さらに形態素に分割するか どうかは、オプショナルである。JCHATとしては、CHILDESと同様に、どれか一つ の理論や立場にたってガイドラインを出すのではなく、どういう立場の研究者で も、それぞれの研究の目的に従って形態素分割をすることができるような手だて を提供することにつとめた。従って、理論的立場によって異なる用言の形態素分 割は、必ず自動置き換え括弧の中だけで行うことにし、括弧の中の形態素分割は 自由とした。その適用例として、学校文法方式、南式、森川式の3つの方式を紹 介しているが、どの方式もまだ、開発途上で、今後、修正される可能性もある。 実際の発話データを一つの方法で誤りなく一貫して形態素に分割するということ はかなり、難しい作業である。現在、中氏が、MacWhinney氏と協力して日本語の ための自動形態素分割プログラムJMORを開発中である。これが、実用化されると、 一貫した信頼性のある形態素分割が短時間で可能になり、特に、発達の指標とし て平均発話長(MLU: Mean Length of utterance)を計算するのが目的の研究者に は、強力な手段となるであろう。もちろん、計算されたMLUが果たして日本語の 発達の指標として妥当かどうかということは、今後、日本語の発達研究者がデー タに基づいて明らかにしていかなければならい課題である。 第9章の「語内の韻律」では、英語にはない、日本語特有のアクセントの記号 化の試みが行われている。第12章の「日本語のためのUNIBET」は、電子メールの ディスカッションで話し合われた内容をふまえて寺尾氏にまとめていただいた。 英語のマニュアルの第10章「UNIBETs」に、他の言語のUNIBET表といっしょに寺 尾氏の日本語のUNIBET表がのっているが、本マニュアルのように詳しい解説がつ いていない。UNIBETの応用編ともいえる第13章の「日本語のためのエラーコーディ ング」も、寺尾氏の幅広い日本語の言い誤りのデータをもとにJCHAT用にまとめ ていただいた。従って、エラー・コーディングに使用される記号とその説明以外 は、英語のマニュアルの第12章「error coding」と対応しない。 第14章の「JCHATの具体例」では、異なるタイプのファイルを紹介し、それぞ れのファイルに使用されているCHAT/JCHATの記号の説明を加えた。記号の使い方 は、具体的なファイルでどういう目的で、どのように使われているか見るのが、 一番わかりやすいのではないかと、これまでの経験から判断したからである。こ れは、英語のマニュアルにはない試みである。 一方、日本語特有の問題を扱うために、英語のマニュアルにはない章も加えた。 たとえば、第3章の「ローマ字表記」、第5章の「分かち書き」、第17章の 「JCHANGE」、第18章の「日本語のスクリプト:文字体系」などがそれにあたる。 ローマ字表記に関しては、ヘボン式にするか訓令式にするかで電子メールでもか なり議論された問題だが、最終的には、中氏が、CLANプログラムCHSTRINGを利用 してヘボン式と訓令式の相互変換ができるファイルJCHANGEを作成、どちらかの 方式を一貫して使えば、どちらのローマ字表記でもよいことになった。また、仮 名表記からローマ字表記の変換ファイルも加えられ、仮名表記による入力も可能 になった。このJCHANGEの使い方については、第17章にわかりやすくまとめられ ている。また、ローマ字表記については、第3章に、ローマ字の歴史とともに、 JCAHTで採用されたヘボン式と訓令式の両方式がまとめられている。なお、第18 章に、漢字仮名を使用した日本語のデータの入力方式が近い将来開発されるのを 期待して、日本語の複雑な文字体系について簡単に解説をした「日本語のスクリ プト:文字体系」も加えられた。また、初心者の便宜を考えて、CHILDES専用に つくられたエディターの使い方をやさしく解説した第16章の「CEDによる入力」 も加えた。 その他の章(第1、4、8、10、11、15章)は、、だいたい、英語のマニュア ルのそれぞれ対応する章にしたがって、まとめられている。ただし、日本語のた めのマニュアルなので、できる限り日本語の例文を使用した。 第2部のCLAN分析プログラムの解説は、中氏に、英語のマニュアルにそってま とめていただいた。当初の予定では、日本語の例を使って、使いやすいものを作 りたいと考えていたが、第1部の入力編の準備に時間がかかり、今回は、CLAN分 析プログラム編の準備に十分時間をかけることができなかった。ただし、内容に 関しては、中氏が、自らテストして解説をしているので、正確である。 CHILDES 入力方式であるCHAT/JCHATをはじめて利用する初心者は、第2章の 「表記システムのCHAT」、第5章の「分かち書き」と、第14章の「JCHATファイ ルの具体例」を読んで、第16章の「CEDによる入力」に従って簡単なファイルを まず入力することをすすめる。もちろん、ローマ字を使用する場合は、ヘボン式 か、訓令式のどちらかに決めなければいけないので、第3章の「ローマ字表記: ヘボンと訓令」を読む必要がある。そして、できあがったファイルに、第2部の 解説を頼りに、平均発話長を計算するMLUや単語の頻度計算をするFREQのような 基本的な分析プログラムをかけてみよう。CHAT/JCHATや CLANは、このようにま ず、使ってみないと、解説書に書いてあることが、なかなかピンとこない。使っ てみて、ある程度、イメージできたら、他の章を読もう。実際に、録音された発 話データを転記する場合は、発話の流れをどのように区切ったらよいか迷うこと がしばしばある。第8章の「発話の区切り方」に簡単なガイドラインがまとめて あるので、参考にするとよいだろう。また、第1章の「トランスクリプト作成の 方法」に、転記する際に注意すべきことがまとめられているので、ぜひ読んでい ただきたい。第6章の「語をどのように転記するか」に紹介されている様々なリ ストは、実際に転記する時におおいに役に立つはずだ。あとは、研究の目的に従っ て、他の章も必要があれば読みすすんでほしい。 英語のマニュアルの単なる翻訳ではなく、日本語のためのCHILDESのマニュア ルをつくるということは、予想以上にたいへんな作業だった。各章担当者および 編集者が、日本、米国、カナダと分散していたため、電子メールやファクッスに 頼って進めていかなければならなかったからである。編集者としては、マニュア ルという性格上、第1部の第1章から第18章までは、内容が正確であること、分 かりやすいことを第一に、英語のマニュアルに照らし合わせてチェックして、必 要があれば著者に何度も書きなおしていただいた。それでも、思い違いや、見過 ごして、まだ、間違いがあるかもしれない。また、各章の調整や、用語の統一が、 時間的に余裕がなく十分できなかった。これについては、今回、解決がつかなかっ た問題といっしょに、利用者の皆さんのご批判を待ってから、改訂版の出版の時 に改善できればと考えている。このマニュアルの出版をきっかけに、できるだけ 多くのメンバーの方々に一日も早く入力作業を開始していただいて、日本語のデー タベースの構築を推進して行っていただきたいと考えている。 謝辞 このマニュアルを作るにあたって、直接、間接に大勢の方々の援助を受けた。 まず、忙しい中を貴重な時間をさいて、このマニュアルのために執筆してくださっ た著者の方々に、謝意を表したい。また、編集の過程で、共同執筆を快く引き受 けて下さった岩立志津夫、中則夫、寺尾康の各氏、データベースの一覧表を作成 するのを快く引き受けて下さった小椋たみ子氏、また、草稿を読んでコメントを して下さった方々に謝意を表したい。特に、分かち書きと形態素の章については、 佐野けい子氏に、終始、ていねいに草稿を読んでいただき貴重なコメントをいた だいた。この一番難しい章を担当し、最後まで直し続けて下さった著者の南雅彦、 森川尋美、両氏と佐野けい子氏に心から謝意を表したい。松岡和美氏は、第一回 JCHAT会議のために電子メールのディスカションで話し合われた内容をまとめる 作業を手伝ってくださった。その後、博士論文の研究で忙しく、積極的に活動に 参加していただけないが、JCHAT発足当時の協力者の一人である。ここに、謝意 を表したい。静岡大学の岩立志津夫氏は、さまざまなフォーマットで準備された 原稿を統一したフォーマットに直してマニュアルとしてまとめて下さった。岩立 氏の協力のおかげで、内容的な編集に専念することができた。ここに、心から感 謝の意を表したい。また、中則夫氏は、大阪学院大学に就職されたばかりの忙し い時にもかかわらず、CLAN分析プログラムの執筆を快く引き受けて下さった。中 氏が引き受けて下さらなければ、今回、第一部と共に出版することができなかっ たであろう。ここに、謝意を表したい。このプロジェクトは、1994年7月より 1995年6月までの一年間、国際交流基金日本研究リサーチ会議助成プログラムの 援助を受けた。この助成がなければ、日本語のための独立したマニュアルとして 出版することはできなかったであろう。ここに謝意を表したい。最後に、このマ ニュアルの編集を引き受けてから、週末に仕事をするのを許してくれた家族の協 力に心から感謝したい。 Adapting the CHILDES System for Japanese Language Studies Brian MacWhinney The publication of this new manual for the transcription of Japanese language transcripts is an important and welcome event. Although chapters of the CHILDES manual have been translated into Dutch, French, Italian, Portuguese, and Spanish, this is the first complete translation of all the core materials of the CHILDES system. This translation of the system into Japanese is all the more important because it comes at a time when Japanese researchers are striving to build a solid, new database that is representative of the acquisition of Japanese at a variety of ages and across a variety of contexts. Of all the major languages included in the CHILDES database, Japanese is perhaps the one that can most advance the crosslinguistic study of child language acquisition (Slobin, 1985a; Slobin, 1985b). The grammatical structure of Japanese provides important data on a wide range of acquisitional issues from both a formalist (Lust & Wakayama, 1979; Mazuka, 1991) and a functionalist perspective (Clancy, 1985; Kuno, 1972). The development of the semantics of reference and discourse (Clancy, 1981; Hinds, 1980) in Japanese contrasts in many interesting ways (Kamio, 1994) with corresponding structures in European languages. The study of the acquisition of literacy in Japanese offers a markedly different perspective on reading and language disorders (Makita, 1968; Stevenson et al., 1982; Watamori & Sasanuma, 1978). And the study of Japanese-English bilingualism in both children and adults promises to teach us a great deal about the processing of both languages (Ito & Tahara, 1985; Kilborn & Ito, 1989). But perhaps the most interesting crosscultural comparisons of all are those that relate the shape of early language acculturation in Japanese with the ways in which children are socialized into language in the West (Oshima-Takane et al., 1982; Oshima-Takane & Muto, 1993). These crosslinguistic comparisons can tell us a great deal about the ways in which society and the human mind constrain and facilitate the acquisition of language. But if we are to realize the great potential of the study of Japanese child language, we will need to improve our techniques for crosslinguistic comparison and we will need to dramatically expand the shape and size of the Japanese database. This core database must focus on the primary evidence regarding language learning that children provide in the context of naturalistic interactions. Much can be learned by using experiments and standardized tests to evaluate a child's language abilities, but research cannot end with formal evaluations and experiments. Eventually we need to look at the rich and complex patterns of conversational interactions where "the rubber hits the road" and the child engages in the real-life use of language. To do this, we need to observe, record, and analyze spontaneous language samples. However, the study of spontaneous language samples involves an enormous time commitment to data collection, transcription, and analysis. The CHILDES system was constructed to address these needs. The system includes a wide variety of programs and codes that have been extensively applied to all of the core problems in language acquisition research (Higginson & MacWhinney, 1990; Higginson & MacWhinney, 1994; MacWhinney, 1991a; MacWhinney, 1991b; MacWhinney, 1993; MacWhinney, 1994a; MacWhinney, 1994b; MacWhinney, 1994c; MacWhinney, 1995; MacWhinney & Snow, 1985; MacWhinney & Snow, 1990; MacWhinney & Snow, 1992). Linked to this system of programs and codes, is an extensive database of transcripts from 22 different languages. Included in the database are data from normally-developing children, children with language disorders, adult aphasics, second language learners, and early childhood bilinguals. Although the largest number of users of the CHILDES system comes from the child language research community, the system is also used extensively by students of child language disorders, aphasia, second language learning, computational linguistics, literacy development, narrative structures, and adult sociolinguistics. In order to understand more deeply the reasons for the creation of this database, we need to trace over the key developments in the study of language learning. I will examine these events in terms of five major periods of language observation that range from studies of the rulers of ancient times to the the most recent computational breakthroughs. 1. The Five Periods of Language Observation Period 1: Pharoahs and Philosophers. The observational study of language development has a long and interesting history. The first attempt to study language development was conducted by the Egyptian pharoah Psammeticus. This study was documented by the Greek historian Herodotus in his Histories. Psammeticus was involved in a dispute with the king of Phrygia regarding whether the original human language was Egyptian or Phrygian. To settle the dispute, Psammeticus decided to entrust two speechless infants to the care of shepherd who was given instructions never to speak to the boys, but to wait until the children had uttered their first words without assistance from any other human being. Eventually, the shepherd returned to the Pharoah and reported that the boys had indeed uttered their first word and that it was 吭ekos Since this was the Phrygian word for 吭read the Pharoah was forced to grant the greater antiquity of Phrygian. He apparently never considered the possibility that the sound 吭ekmight be an excellent imitation of the bleating of sheep. Quite possibly, the boys had decided to learn the language of the sheep, since at least the animals were willing to talk with them. Experiments of this type would hardly pass through our modern Human Subject review committees. Moreover, they involved only the most primitive observational techniques. All the shepherd had to do in this case was to record a single word. A few centuries later we see a more elaborate attempt at naturalistic observation in a remarkable passage from St. Augustine, who reported in his Confessions that he remembered how he had learned language: This I remember; and have since observed how I learned to speak. It was not that my elders taught me words (as, soon after, other learning) in any set method; but I, longing by cries and broken accents and various motions of my limbs to express my thoughts, that so I might have my will, and yet unable to express all I willed or to whom I willed, did myself, by the understanding which Thou, my God, gavest me, practise the sounds in my memory. When they named anything, and as they spoke turned towards it, I saw and remembered that they called what they would point out by the name they uttered. And that they meant this thing, and no other, was plain from the motion of their body, the natural language, as it were, of all nations, expressed by the count- enance, glances of the eye, gestures of the limbs, and tones of the voice, indicating the affections of the mind as it pursues, possesses, rejects, or shuns. And thus by constantly hearing words, as they occurred in various sentences, I collected gradually for what they stood; and, having broken in my mouth to these signs, I thereby gave utterance to my will. Thus I exchanged with those about me these current signs of our wills, and so launched deeper into the stormy intercourse of human life, yet depending on parental authority and the beck of elders. Augustine's fanciful recollection of his own language acquisition remained the high water mark for child language studies through the Middle Ages and even the Enlightenment. Period 2: Baby biographies. The second period of child language studies was stimulated by the enormous impact of Charles Darwin. By using notecards and field books to track the distribution of hundreds of species and subspecies in places like the Galapagos and Indonesia, Darwin was able to collect an impressive body of natrualistic data in support of his views on natural selection and evolution. In his study of gestural development in his son, Darwin showed how these same tools for naturalistic observation could be adopted for the study of human development. By taking detailed daily notes, Darwin showed how researchers could build 吭aby biographiesdocumenting virtually any aspects of human development. Following on Darwin's lead, scholars such as Ament, Preyer, Gvozdev, Szuman, Stern, Ponyori, Kenyeres, and Leopold created monumental baby biographies detailing the development of their own children. Perhaps the most imaginative of these projects were those initiated by Szuman in Krakow just before and after World War II, combining film, drawings, and language samples to gain full pictures of the development of language and personality. Period 3: Transcripts. The limits of the baby biography were always quite apparent. Even the most highly trained observor cannot keep pace with the rapid flow of speech that emerges between children and their caretakers. Instead, observors end up focusing on a few cute words or interesting sounds or phrases, rather than larger features such as discourse and narrative. The emergence of the taperecorder in the 1950's provided a way around these limitations and ushered in the third period of child language studies. This period was characterized by multi-investigator projects which collected large datasets of taperecordings. As long as there was sufficient funding available, these tapes were transcribed either by hand or by typewriter. Typewritten copies were reproduced by dittomaster, stencil, or mimeograph. Comments and tallies were written into the margins of these copies and new, even less legible copies were then made by thermal production of new dittomasters. Every investigator devised a project-specific system of transcription and project-specific codes. The single most important study of this third period was the study of the development of Adam, Eve, and Sarah conducted by Brown (1973) and his students. It was Brown who initiated the idea of data-sharing by allowing dittoed copies of his entire corpus to be shipped to other researchers. In some cases, these other investigators (e.g. Moerk, 1983) attempted to disprove the conclusions drawn from those data by Brown himself. By exposing his work to this type of critical examination, Brown secured a lasting preeminent stature in the child language field. However, the dissemination of mimeographed and photocopied transcript data also cast a spotlight on the weak underbelly of our analytic techniques in language acquisition research. As we began to compare hand-written and typewritten transcripts, problems in transcription methodology, coding schemes, and cross-investigator reliability became more apparent. Period 4: Computers. Just as these new problems were coming to light, a major technological opportunity was emerging in the shape of the powerful, affordable microcomputer. Microcomputer word-processing systems and database programs allowed researchers to enter transcript data into computer files which could then be easily duplicated, edited, and analyzed by standard data-processing techniques. The possibility of utilizing shared transcription formats, shared codes, and shared analysis programs shone at first like a faint glimmer on the horizon, against the fog and gloom of handwritten tallies, fuzzy dittoes, and idiosyncratic coding schemes. In 1984 a meeting of 16 researchers in child language and language disorders formally launched the CHILDES system. The initial focus of the CHILDES project was on the collection of a non-standardized database of computerized corpora. As the database grew, it soon became apparent that researchers needed more than a disparate set of corpora transcribed in a confusing diversity of styles. They needed a consistent set of standards both for the analysis of old data and for the collection and transcription of new corpora. The CHILDES system addressed these needs by developing three separate, but integrated, tools. The first tool was the database itself, the second tool was the CHAT transcription and coding format, and the third tool was the CLAN package of analysis programs. By 1991, the basic shape of these three tools was completed. The full system is presented in detail in this manual and illustrated through practical examples in Sokolov and Snow (1994). Researchers who plan to make use of the CHILDES tools will want to consult both of these resources. Period 5: Connectivity. Since 1981, when the CHILDES Project was first conceived, the world of computers has gone through a series of remarkable revolutions, each introducing new opportunities and challenges. The processing power of the home computer now dwarfs the power of the mainframe of the 0's, new machines are now shipped with built-in audiovisual cabilities, and devices such as CD-ROM's, DAT tapes, and optical disks offer enormous storage capacity at reasonable prices. More importantly, microcomputers all across the world are now connected with each other through a global high-speed network that supports the movement of all sorts of information, including text, sound, and video. Sitting in my office at Carnegie Mellon, I can retrieve pictures, sounds, and text from dozens of sites across Japan in seconds. The implications of this type of connectivity for the development of a scientific database are enormous. This connectivity between computers is also matched by an increasing interactivity between the operating system and individual programs. The user can record a sound in one program, take it immediately to another for detailed acoustic analysis, and then to a third for database storage. In this fifth period of observational analysis, the CHILDES plans to make use of these new patterns of connectivity. But, before we outline our plans for the future, we need to explain to the reader the detailed shape of the tools that are currently available. 2. The Database The first major tool in the CHILDES workbench is the database itself. Through CD-ROM or FTP, researchers now have access to the results of nearly a hundred major research projects in over a dozen languages across the last 25 years. Using this database, a researcher can directly test a vast range of empirical hypotheses against either this whole database or some logically defined subset. The database includes a wide variety of language samples from a wide range of ages and situations. Target speakers include children with language impairments, adults with aphasia, second language learners, and bilingual children. Most importantly, almost all of the data represent real spontaneous interactions in natural contexts, rather than some simple list of sentences or test results. Although more than half of the data come from English speakers, there is also a significant component of non-English data. All of the major corpora have been formatted into the CHAT standard and have been checked for syntactic accuracy. The total size of the database is now approximately 160 million characters (160 MB). The corpora are divided into six major directories: English, non-English, narratives, books, language impairments, and bilingual acquisition. In addition to the basic texts on language acquisition, there is a database from the Communicative Development Inventory (Dale, Bates, Reznick & Morisset, 1989) and a bibliographic database for Child Language studies (Higginson & MacWhinney, 1990). Membership in CHILDES is open. Members are listed in a standard database and receive electronic messages through the info-childes@andrew.cmu.edu electronic bulletin board. In order to be officially included in the info-childes electronic mailing list and database, researchers should send email to childes@cmu.edu with their computer address, postal address, affiliations, and phone number. Users are asked to abide by the rules of the System. In particular, they should abide by the stated wishes of the contributors of the data and should acknowledge all uses of the data and the programs. Any article that uses the data from a particular corpus must cite a reference from the contributor of that corpus. The exact reference is given in the CHILDES manual (MacWhinney, 1991b). In addition, researchers should cite the 1991 version of the manual, since this allows us to track references in the literature. All of the CHILDES materials can be obtained without charge by anonymous FTP to poppy.psy.cmu.edu in Pittsburgh and atila-ftp.uia.ac.be in Antwerp. The procedure for transferring files and programs depends on the type of machine you are using and the type of files you wish to retrieve. It is best to always set 吭inarymode for transfer. The data files are combined into larger files using the tar program and you will need to obtain that program to extract them. If you are not familiar with the details of the process of transfer using FTP, it is best to get help from someone more familiar with the process. For users without access to the InterNet, as well as for those who want a convenient way of storing the database, we have published (MacWhinney, 1993) a CD-ROM in High Sierra format which can be read by Macintosh, UNIX, and MS-DOS machines which have a CD-ROM reader. The disk contains the whole database, the programs, and the CHILDES/BIB system. One directory contains the materials in Macintosh format and the other contains the materials in UNIX/DOS format. The CD-ROM, the printed manual, and the research guide are available at nominal cost through Lawrence Erlbaum Associates, 365 Broadway, Hillsdale NJ 07642 and the phone number for orders is (201) 666-4110. 3. CHAT All of the files in the database use a standard transcription format called CHAT. This system is designed to accommodate a large variety of levels of analysis, while still permitting a barebones form of transcription when additional levels of detail are not needed. The system is grounded on three basic principles. 1 Each utterance is transcribed as a separate entry in the system. Even in cases when a speaker continues for several utterances, we ask the transcriber to enter each new utterance on a new line. This is important, since it greatly facilitates the matching of additional information to the "main line" 2 Coding information is separated out from the basic transcription and placed on separate "dependent tiers' below the main line. The CHILDES manual presents coding systems for phonology, speech acts, speech errors, morphology, and syntax. The user can created additional coding systems to serve special needs. 3 On the main line, the main goal of the transcription is to enter a set of standard language word forms that correspond as directly as possible to the forms produced by the learner. Of course, learner forms differ from the standard language in many ways and there are a wide variety of techniques in the CHAT system for notating these divergences, while still maintaining the listing of word forms to facilitate computer retrieval. One of the main goals of the current Japanese version of the CHILDES manual is the formulation of specific rules for the transcription of Japanese. 4. CLAN For the last few years, the main emphasis of new developments in the CHILDES system has been on the writing of new computer programs. Currently, there are two major components of the CHILDES programs. The first is the set of programs for searching and string comparison called clan (Child Language Analysis). The second is a set of facilities built up around an editor called ced (CHILDES Editor). The editor can play a particularly important role in supporting the inclusion of Japanese data in full Kana script. Let us first take a look at the capabilities of the clan programs. These programs have been designed to support four basic types of linguistic analysis (Crystal, 1982; Crystal, Fletcher & Garman, 1989): lexical analysis, morphosyntactic analysis, discourse analysis, and phonological analysis. Lexical analyses. The programs for lexical analysis focus on ways of searching for particular strings. The strings to be located can be entered in a command line, one at a time, or put together in a master file. The strings can contain wild cards and words can be combined using Boolean operators such as "and", "not", and "or". Together, these various capabilities give the user virtually complete control over the nature of the patterns to be located, the files to be searched, and the way in which the results of the search should be combined into files or even reduced into data fro statistical analysis. Scores of studies have appeared in the published literature using these techniques to track the development of lexical fields, such as morality, kinship, gender terminology, mental states, causative verbs, and modal auxiliaries. It is also possible to track words of a given length or a given lexical frequency. Morphosyntactic analyses. Many of the most important questions in child language require the detailed study of specific morphosyntactic features and constructions. Typically, this type of analysis can be supported by the coding of a complete %mor line in accord with the guidelines specified in Chapter 14 of the CHILDES Manual. Once a complete %mor tier is available, a vast range of morphological and syntactic analyses become possible. However, hand-coding of a %mor tier for the entire CHILDES database would require perhaps twenty years of work and would be extremely error-prone and non-correctable. If the standards for morphological coding changed in the middle of this project, the coders would have to start over again from the beginning. It would be difficult to imagine a more tedious and frustrating task -- the hand-coder's equivalent of Sisyphus and his stone. To address this problem, we have built an automatic coding program for CHAT files, called mor. Although the system is designed to be transportable to all languages, it is currently only fully elaborated for English, Japanese, Dutch, and German. The Japanese implementation of mor has been designed by Norio Naka at the Osaka Gakuin University. The language-independent part of mor is the core processing engine. All of the language-specific aspects of the systems are built into files which can be modified by the user. In the remarks that follow, we will first focus on ways in which a user can apply the system for English. The mor program takes a CHAT main line and automatically inserts a %mor line together with the appropriate morphological codes for each word on the main line. Although you can run mor on any CLAN file, in order to get a well-formed %mor line, you often need to engage in significant extra work. In particular, users of mor will often need to spend a create deal of time engaging in the processes of lexicon building and ambiguity resolution. To facilitate lexicon building, there are several options in mor to check for unrecognized lexemes and to add new items. To facilitate ambiguity resolution, we have integrated a system for sense selection into the ced editor. Construction of a full %mor line using mor also makes possible several additional forms of analysis. One is the automatic running of the dss program which computes the Developmental Sentence Score profile of Lee (1974). Parallel systems of analysis will eventually be developed for systems such as IPSYN (Scarborough, 1990) or LARSP (Crystal et al., 1989). The %mor line can also be used as the basis for CLAN programs such as cooccur which examines local syntactic structures and chip which examines recasts, imitations, and structural reductions. Discourse and narrative. The most important CLAN tool for discourse analysis is the system for data coding inside the ced editor. Ced provides the user with not only a complete text editor, but also a systematic way of entering user-determined codes into dependent tiers in CHAT files. In the coding mode, ced allows the user to establish a predetermined set of codes and then to march through the file line by line making simple key stroke movements that enter the correct codes for each utterance selected. Once a file has been fully coded in ced, a variety of additional analyses become possible. The standard search tools of freq, kwal, and combo can be used to trace frequencies of particular codes. However, it is also possible to use the chains, dist, and keymap programs to track sequences of particular codes. For example, keymap will create a contingency table for all the types of codes that follow some specified code or group of codes. It can be used, for example, to trace the extent to which a mother's question is followed by an answer from the child, as opposed to some irrelevant utterance or no response at all. Dist lists the average distances between words or codes. chains looks at sequences of codes across utterances. Typically, the chains being tracked are between and within speaker sequences of speech acts, reference types, or topics. The output is a table which maps, for example, chains in which there is no shift of topic and places where the topic shifts. Wolf, Moreton, and Camp (1994) apply chains to transcripts that have been coded for discourse units. Yet another perspective on the shape of the discourse can be computed by using the mlt program which computes the mean length of the turn for each speaker. Phonological analyses. Currently, phonological analysis is a bit of a step-child in clan, but we have great plans for correcting this situation. These plans involve two types of developments. One is the amplification of standard programs for inventory analysis, phonological process analysis, model-and-replica analysis, and other standard frameworks for phonological investigation. Currently, the two programs adapted to phonological analysis are phonfreq which computes the frequencies of various segments, separating out consonants and vowels by their various syllable positions and modrep which matches %pho tier symbols with the corresponding main line text. For more precise control of modrep, it is possible to create a separate %mod line in which each segment on the %pho corresponds to exactly one segment on the %mod line. Digitized audio. Although inclusion of a complete %pho line is a powerful tool, even this form of two-tier transcription misrepresents the full dynamics of the actual audio record. On the Macintosh, the ced editor allows the transcriber direct access to digitized audio records that have been stored using an application such as Sound Edit 16. In the next months, we hope to implement similar utilities for the Windows platform. Using this system which we call "Sonic CHAT", one can simply double-click on an utterance and it will play back in full CD quality audio. Moreover, the exact beginning and end points of the utterance are coded in milliseconds and the pause program can use these data to compute total speaker time, time in pausing between utterances, and overlap duration time. 5. The Future Our plans for the future development of the CHILDES system are based on the view of the fifth stage of observational research as being the period of connectivity. Our first priority for this period is to make full use of the facilities of the World-Wide Web (WWW) to provide multimedia access to the database, the bibliographic system, and the manual. Using currently available tools such as NetScape, Macintosh AV facilities, and HTML formatting programs, it is now possible for a user to use a sequence of mouse clicks to open up pages of the CHILDES manual, search for particular files in particular corpora, open up those files, and hear the sounds in each. It is even possible to have pictures of the children and parents accessible over the net. Equally important is the growth of connectivity between programs on a single computer. An example of the type of development we are currently supporting is the linkage of the ced editor to high-level speech analysis tools such as Signalyze on the Macintosh or WAVES on UNIX. We also plan to have access to a reference database of IPA sounds, as well as audio examples of specific uses of CHAT symbols and codes. The Logome. The emergent connectivity of the InterNet has opened up an even more exciting prospect that few have yet appreciated. This is the potential for the establishment of the Logome database. Much like the Human Genome database, the creation of a set of standards for data transcription and transmission will allow us to access a wide variety of data on not just language learners, but also adult conversations, huge databases of written texts, phone conversations, schoolroom lessons, and all manner of human language production by all types of speakers in all languages. Of course, we will never encode the full contents of the Human Logome, but we can divise tools that will allow us to understand the patterns involved in the enormous diversities of behaviors that we can human language. Successful formation of this important new resource will require an overt commitment from researchers acting as individuals and through their professional societies and journals. In fields such as the sequencing of proteins in DNA, researchers, journals, and the government have set the requirement that only data which are publicly available in the Human Genome database can be published. A similar policy for language development studies would insure the stable and continued development of the CHILDES database and the gradual emergence of the Logome database. Until such a policy is developed, voluntary acceptance of these responsibilities will guarantee continued growth of the database. In this area, data from children and adults with language disorders are some of the most important data to be included. For this reason, we look forward with great hope to the general acceptance of the CHILDES system and the Logome database by researchers in language disorders. 6. The place of Japanese research in the CHILDES system There are a number of ways in Japanese language researchers can contribute to the development of a richer, more extensive database. Given the high technological sophistication of Japanese researchers, there is good reason to believe that Japanese researchers can play a pivotal role in the elaboration of new technologies for the computational analysis of transcripts. The creation of a Japanese version of mor by Norio Naka is a good example of this type of development. We would also expect to see Japanese researchers involved in the initiatives to display and link computer audio and video to the CHAT transcript, and to provide tools for automatic analysis of the digitized audio record. We can also work with Japanese researchers to develop a full bibliography of work in Japanese child language in the format of the CHILDES/BIB system and to provide good WWW (World Wide Web) access to these new tools. However, the single most important task now facing us is the elaboration of the transcript database for Japanese. Put quite simply, we need more data from more children at more ages. There is room for data on early language acquisition, possibly in the form of the maternal inventory checklist of the CDI system (Dale et al., 1989). But we also need data from children with language disorders, children from lower-class families, childhood bilinguals, and adult second language learners. To some degree, it may be possible to enter in older published data sets, but we will also need fresh new data with full audio and video records. The task is clear, the tools are ready, and we look forward to beginning this important effort. References Bornstein, M. H., Tal, J., Rahn, C., Galperin, C. Z., P~cheux, M.-G.,Lamour, M., Azuma, H., Toda, S., Ogino, M., & Tamis-LeMonda, C. S. (1992). Functional analysis of the contents of maternal speech toinfants of 5 and 13 months in four cultures: Argentina, France, Japan, and the United States. Developmental Psychology, 28, 593-603. Bornstein, M. H., Tamis-LeMonda, C. S., Tal, J., Ludemann, P., Toda, S.,Rahn, C., P~cheux, M.-G., Azuma, H., & Vardi, D. (1992). Maternal responsiveness to infants in three societies: The United States, France,and Japan. Child Development, 63, 808-821. Clancy, P. M. (1981). Referential choice in English and Japanese narrative discourse. In W. L. Chafe (Ed.), The pear stories, . Norwood, New Jersey: Ablex Publishing Corporation. Clancy, P. M. (1985). The acquisition of Japanese. In D. I. Slobin (Ed.), The crosslinguistic study of language acquisition: Volume 1. The data. Hillsdale, NJ: Lawrence Erlbaum. Crystal, D. (1982). Profiling linguistic disability. London: Edward Arnold. Crystal, D., Fletcher, P., & Garman, M. (1989). The grammatical analysis of language disability. Second Edition. London: Cole and Whurr. Dale, P., Bates, E., Reznick, S., & Morisset, C. (1989). The validity of a parent report instrument. Journal of Child Language, 16, 239-249. Higginson, R., & MacWhinney, B. (1990). CHILDES/BIB: An annotated bibliography of child language and language disorders. Hillsdale, NJ: Erlbaum. Higginson, R., & MacWhinney, B. (1994). CHILDES/BIB 1994 Supplement. Hillsdale, NJ: Lawrence Erlbaum. Hinds, J. (1980). Japanese conversation, discourse structure, and ellipsis. Discourse Processes, 3, 263-286. Ito, T., & Tahara, S. (1985). A psycholinguistic approach to the acquisition of multifuncionality in Japanese particles wa and ga. Descriptive and Applied Linguistics, 18, 121-131. Kamio, A. (1994). The theory of territory of information: The case of Japanese. Journal of Pragmatics, 21, 67-100. Kilborn, K., & Ito, T. (1989). Sentence processing in Japanese-English and Dutch-English bilinguals. In B. MacWhinney & E. Bates (Eds.), The crosslinguistic study of sentence processing. New York: Cambridge University Press. Kuno, S. (1972). Functional sentence perspective: a case study from Japanese and English. Linguistic Inquiry, 3, 269-320. Lee, L. (1974). Developmental Sentence Analysis. Evanston, IL: Northwestern University Press. Lust, B., & Wakayama, T. K. (1979). The structure of coordination in children's first language acquisition of Japanese. In F. R. Eckman & A. J. Hastings (Eds.), Studies in first and second language acquisition. Rowley, Massachusetts: Newbury House Publishers, Inc. MacWhinney, B. (1991a). The CHILDES database. Dublin, OH: Discovery Systems. MacWhinney, B. (1991b). The CHILDES project: Tools for analyzing talk. Hillsdale, NJ: Erlbaum. MacWhinney, B. (1993). The CHILDES Database: Second Edition. Dublin, OH: Discovery Systems. MacWhinney, B. (1994a). The CHILDES Project: Tools for Analyzing Talk (Second Edition). Hillsdale, NJ: Lawrence Erlbaum Associates. MacWhinney, B. (1994b). Computational tools for analyzing language. In P. Fletcher & B. MacWhinney (Eds.), Handbook of child language research. London: Blackwells. MacWhinney, B. (1994c). New horizons for CHILDES research. In J. Sokolov & C. Snow (Eds.), Handbook for research in language development using CHILDES. Hillsdale, NJ: Lawrence Erlbaum Associates. MacWhinney, B. (1995). The CHILDES system. In W. Ritchie & T. Bhatia (Eds.), Handbook of language acquisition. New York: Academic Press. MacWhinney, B., & Snow, C. (1985). The Child Language Data Exchange System. Journal of Child Language, 12, 271-295. MacWhinney, B., & Snow, C. (1990). The Child Language Data Exchange System: An update. Journal of Child Language, 17, 457-472. MacWhinney, B., & Snow, C. (1992). Tools for analyzing child language corpora. In A. Mackie, T. McAuley, & C. Simmons (Eds.), For Henry Kucera: Studies in Slavic philology and computational linguistics. Ann Arbor: Michigan Slavic Publications. Makita, K. (1968). The rarity of reading disability in Japanese children. American Journal of Orthopsychiatry, 38, 599-614. Mazuka, R. (1991). Processing of empty categories in Japanese. Journal of Psycholinguistic Research, 20, 215-232. Oshima-Takane, Y., Miyake, N., Dickson, W.P., Azuma, H., & Hess, R.D. (1982). Description styles in a referential communication task: a comparison between mother and teacher in Japan and the United States. Journal of Japanese Psychology, 53, 207-213. Oshima-Takane, Y. & Muto, T. (1993) Analysis of question-asking behaviors: A comparison between Japanese and Canadian students. Poster presented at the Annual Meeting of Canadian Psychological Association, May,Montreal. Scarborough, H. S. (1990). Index of productive syntax. Applied Psycholinguistics, 11, 1-22. Slobin, D. (1985a). The crosslinguistic study of language acquisition. Volume 1: The data. Hillsdale, N. J.: Lawrence Erlbaum Associates. Slobin, D. I. (1985b). The crosslinguistic study of language acquisition. Volume 2: Theoretical issues. Hillsdale, NJ: Lawrence Erlbaum Associates. Sokolov, J., & Snow, C. (Eds.). (1994). Handbook of research in language development using CHILDES. Hillsdale, NJ: Erlbaum. Stevenson, H., Stigler, J., Lucker, G., Lee, S., Hsu, C., & Kitamura, S. (1982). Reading disabilities: The case of Chinese, Japanese, and English. Child Development, 53, 1164-1181. Watamori, T., & Sasanuma, S. (1978). The recovery processes of two English-Japanese bilingual aphasics. Brain and Language, 6, 127-130. Wolf, D., Moreton, J., & Camp, L. (1994). Children's acquisition of different kinds of narrative discourse: Genres and lines of talk. In J. Sokolov & C. Snow (Eds.), Handbook of research in language development using CHILDES. Hillsdale, NJ: Lawrence Erlbaum Associates.