【Speech to Text】文字起こし翻訳機能について

2023年4月27日
読了時間: 8分

更新日：2023年4月28日

「スピーチ・トゥ・テキスト」とは？

「Speech to Text （スピーチ・トゥ・テキスト）」とは、Viebelaにより提供される新しい実験的かつ斬新なサービスです。ユーザーによって話された内容を文字起こしして、スクリーンに字幕表示し、翻訳サービスも提供します。

カスタマー（利用者）はファイアウォールのルールをアップデートする必要がありますか？

利用者は「Speech to Text 」を使うために、下記リストを許可し、追加する必要があります。

IP アドレスの割り当て方法: *.stt.speech.microsoft.com

*. api.cognitive.microsoft.com

を割り当てる上で、アスタリスク「*」があるものは「ワイルドカード」と呼ばれます。ワイルドカードでは「*」は一般的に「任意」を意味します。それを使用する（または表示する）とき、あいまいなスペースを「any」で埋めます。例: 001AAA.stt.speech.microsoft.com から 999ZZZ.stt.speech.microsoft.com を入力する代わりに、ワイルドカード記号 (*.stt.speech.microsoft.com) を入力できます。ワイルドカードを使用するもう 1 つの利点は、将来ドメインを更新するときに、ファイアウォールの許可リストを再度変更する必要があることをユーザーの皆さまに知らせる必要がないことです。

尚、こちらのリストを含めたGAIA TOWNの全てのホワイトリストは、ガイアリンク HPの「マニュアル」ページにて公開しています。GAIA TOWN以外のPrivate Campusをお持ちのユーザー様は、それぞれ各自のホワイトリストが必要になります。ご不明な場合はPrivate Campusのオーナーにお尋ねください。

「スピーチ・トゥ・テキスト」はすべての地域で利用可能です。しかし現在のところ、VIrbelaは米国で１つのエンドポイント（端末）のみで提供しており、これはデータ伝達（データの受け渡し）をするのみになっており、米国では追加データの蓄積はしていません。

VIrbelaは早い時期に更なるエンドポイントを追加します。もしお客様がAzure　Transcription Service standpoint のスタート時にワイルドカードを追加した場合、Virbelaも顧客にファイアーウォール・ルールのアップデートを要求することなく、それらのエンドポイントを追加することができます。

[Memo]

Virbelaキャンパスは、これらのファイアーウォール・ルールを追加しなくても問題なく利用できます。これらのルールは「スピーチ・トゥ・テキスト」機能にのみ影響します。

「スピーチ・トゥ・テキスト」で最低限必要とされるもの（OS、システム）は、Virbelaで最低限必要とされるものとは異なりますか？

はい。「スピーチ・トゥ・テキスト」の利用には、Windows10以上、もしくは、macOS version10.14以上が必要になります。

どうすれば、「スピーチ・トゥ・テキスト」を自分のキャンパスで利用できますか？

「スピーチ・トゥ・テキスト」を利用するためには、まずキャンパスオーナーは各自のアカウントマネージャーに連絡を取る必要があります。そしてアカウントマネージャーがVirbelaのITチームと共に「スピーチ・トゥ・テキスト」をキャンパスで使えるよう手配します。

ITチームがこの手配を完了次第、キャンパスオーナーはVirbela dashboard world screenにてglobal speech to textを利用可にしなければなりません。

[i]

もしユーザーが各自のキャンパスと特定のルーム（部屋）で「スピーチ・トゥ・テキスト」を利用可にし、その後キャンパスでの「スピーチ・トゥ・テキスト」を利用不可に設定した場合、すべての部屋（ルーム）での文字起こし機能が停止します。しかし、Virbelaは部屋の設定（ルーム設定）を記憶しているので、ユーザーが再度grobal settingを利用可にすると、「スピーチ・トゥ・テキスト」を利用可にしていた全てのルーム（部屋）で文字起こしを再開します。

全ての部屋（ルーム）がデフォルト（初期設定）で「スピーチ・トゥ・テキスト」が利用可になります。個々のルームで「スピーチ・トゥ・テキスト」を利用不可にする場合は、キャンパスに入り、「スピーチ・トゥ・テキスト」が利用可になっているルームに入室してください。そして、ギアメニュー（gear menu）下の「ルーム設定（room setting）」をクリックし、「Enable Speech-to-Text（スピーチ・トゥ・テキストを利用可にする）」横のチェックボックスをクリックしてください。

[i]

上記のルーム設定は大講堂（オーディトリウム：Auditorium）シーンのものです。他のシーンでは、上記のものとは異なる選択肢が現れるかもしれません。しかし、すべての場面において、“Enable Speech-to-Text”（スピーチ・トゥ・テキストを利用可にする）のオプションがあります。

ユーザー（利用者）はどのようにして、「スピーチ・トゥ・テキスト」が利用不可になっていると分かりますか？

もし、ある特定の部屋（ルーム）で「スピーチ・トゥ・テキスト」が利用不可になっている場合、ユーザーは入室後に以下（画像）のようなプロンプト（小窓、メッセージ）が表示されます。

どうすればユーザーは「スピーチ・トゥ・テキスト」による音声文字入力（トランスクリプション書き換え、音声入力）を利用可能になりますか？

ユーザーはギアメニュー（gear menu）下のパフォーマンスメニュー（performances menu）にて、音声文字入力（トランスクリプション）を利用可に出来ます。ユーザーは「transcribe speech into the test（音声を文字に書き換える）」の横にあるチェックボックスをクリックしてください。

ユーザーが「スピーチ・トゥ・テキスト」を利用可にすると、初回はポップアップが表示されます。ユーザーは「スピーチ・トゥ・テキスト」での音声文字入力を可能にするため、これらの条件（ポップアップの内容）に「accept（許可）」する必要があります。そして、どのユーザーがこれらの条件を許可したか、Virbelaは追跡します。

ユーザーが「スピーチ・トゥ・テキスト」を利用可にした後、ユーザーは設定言語（何語であれ、Virbela上で既に設定している言語）で「スピーチ・トゥ・テキスト」の音声文字入力を実行するか、もしくは、ほかの言語に翻訳するかを選択することができます。ユーザーはドロップダウンメニュー（dropdown、プルダウンメニュー）から、言語を選ぶ必要があります。

[！]

現状の文字起こし機能では、ユーザーは入力言語を指定する必要があります。（例えば、話し手の母語、など）言い換えると、ユーザーがデフォルト言語（言語設定）で英語を選択しているのに、話し手がスペイン語で話した場合、文字起こし機能は正確に機能しません。

[i]

ユーザーが「スピーチ・トゥ・テキスト」を利用可にしたとしても、音声入力された文章は、ガイアリンクまたはPrivate Campusの管理者のルーム設定によって「スピーチ・トゥ・テキスト」が許可された部屋にのみ表示されます。

翻訳サービスはどのように機能しますか？

翻訳サービスは、話し手の言語パフォーマンスとユーザーのアウトプットパフォーマンスを検討します。

例えば、英語を選択。もしユーザーが英語を話せば、「スピーチ・トゥ・テキスト」サービスは、ユーザーの話した内容を正確に文字に起こし、翻訳するでしょう。しかし、もしユーザーが英語以外の言語を話した場合、正確な文字入力・翻訳はされません。

ユーザーは「choose spoken language field」にて、利用言語を設定しなければなりません。「default language（デフォルト言語、設定言語）」を選ぶ（設定する）ことで、システムが「language options（言語オプション）」で使用する言語が選択（設定）されます。ユーザーはまた、文章表示（文字起こし表示、字幕表示）したい言語を指定する必要があります。

以下は二人のユーザーが異なる言語で会話している例です。左側のユーザーは発話言語・文章入力言語ともに英語を選択しています。右側のユーザーは発話言語・文章入力言語ともにスペイン語を選択しています。

左のユーザーは英語、右のユーザーはスペイン語を話しています。しかし、どちらのユーザーもそれぞれの母語が文章入力されています。

「スピーチ・トゥ・テキスト」はユーザーにどのように表示されますか？

ユーザーがこの機能を利用可にすると、「スピーチ・トゥ・テキスト」はチャットウィンドウのすぐ上に表示されます。

一人もしくはそれ以上のユーザーが話し続けた場合、更なる文章が表示されていきます。

ユーザーが話し続けた場合、最新の発言が一番下に表示されます。しかし、ユーザーが上にスクロールすると、これまでの会話履歴を見ることができます。

Chat menuが最新のスレッド（発言）に戻ります。

[i]

現状、履歴は20秒間残ります。

マイクはどれくらいの感度ですか？どんな声をとらえますか？

「スピーチ・トゥ・テキスト」サービスは、声が届く範囲内を、全て文字起こしします。言い換えれば、もしユーザーがメインキャンパスにいた場合、そのユーザーの周りにいる他のユーザーたちの声をすべて文字起こしします。しかし、キャンパスの反対側にいるユーザーの声までは文字起こししません。

[!]

「スピーチ・トゥ・テキスト」はほかのプライベート・ボリュームにいるユーザーの声は文字起こししません。しかし、もしユーザーがあるプライベート・ボリュームに入った場合、「スピーチ・トゥ・テキスト」が、そのユーザーの到着数秒前に発生した会話を依然として文字起こししている可能性はあります。もし、極秘であったり、慎重を要する内容の会話をする場合、ユーザーはドアにロックをかけるか、その部屋の「スピーチ・トゥ・テキスト」を利用不可に設定することをお勧めします。

Virbelaは音声文章入力（文字起こし）の履歴を保存しますか？ユーザーは入力文章をダウンロードすることは出来ますか？

Virbelaは文章入力履歴を保持しません。一旦スクリーンから文章履歴が消えたら、それは永遠に失われます。

いいえ。現状、ユーザーは入力文章をダウンロード、もしくはコピーすることは出来ません。

何語（どのような言語）がサポートされていますか？

「スピーチ・トゥ・テキスト」サービスでは、既にVirbelaでサポートされている全ての言語での翻訳が可能です。

「スピーチ・トゥ・テキスト」はチャットメッセージも翻訳しますか？

いいえ。チャットメッセージは翻訳しません。

ユーザーは音声文字入力をオプトアウト（拒否）することは出来ますか？

いいえ。現状ではできません。

「スピーチ・トゥ・テキスト」では、複数の話者が同時に話しても機能しますか？

はい。「スピーチ・トゥ・テキスト」は複数の話者が同時に話しても機能します。しかし、お互いの発言に被せるように話したり、途中で遮ったりしながら話すと、音声文字入力は困難になります。

「スピーチ・トゥ・テキスト」はライブ・ストリームでの機能しますか？

「スピーチ・トゥ・テキスト」は話している全てのユーザーの発言を文字に起こします。しかし、ビデオやライブストリームでは機能しません。

「スピーチ・トゥ・テキスト」は「user-selected voice sensitivity settings」（ユーザーにより選択されたボイス詳細設定）に反応しますか？

はい。反応します。

3件のコメント

babyish aggregate

1月19日

このサービスは、単なる音声認識を超えて fnaf「話すこと」と「理解すること」を橋渡しする仕組みになっています。

編集済み

Chan Bianca

2025年10月22日

dvd コピーガード解除

That's Not My Neighbor

2025年10月09日

That’s Not My Neighbor stands out as a masterful blend of simplicity and suspense. Its hand-drawn visuals, subtle tension, and clever deception mechanics turn every inspection into a haunting dance between logic and fear.