ドラフト版
AIでためしてみた。
アプリ(Streamlit)(別ウインドで起動します。)
「日英Wordファイルから全対訳候補を抽出し、出現順を維持してExcelにまとめるStreamlitアプリ」。
以下、仕様
① パスワード認証機能
最初に「パスワード入力欄」が表示される。
設定されている今日のパスワードは pondering2025。
正しく入力し「ログイン」ボタンを押すとアプリ本体が表示される。
間違った場合は「パスワードが間違っています」と表示される。
② Wordファイルのアップロード
2つのファイルをアップロード:
日本語文書(ja_file)
英語文書(en_file)
(.docx ファイルのみ受け付ける。)
両方アップロード後、「抽出開始」ボタンを押すと処理開始。
③ 文の抽出処理
Word内の段落を走査して文を抽出。
改行・句読点で分割し、段落番号・文番号付きでリスト化。
日本語文抽出
→ 「。」「!」「?」または改行で文を区切る。
英語文抽出
→ ピリオド・疑問符・感嘆符で文を区切る。ただし略語(例: i.e., e.g.)や数字付き見出し(例: 1.1)などを考慮。
→ 残りの文も切り捨てず最後に追加。
④ 類似度計算
日本語・英語の文をそれぞれベクトル化。
⑤ 対訳ペアの抽出(メインロジック)
日本語文を順番に取り出し、英語文の中から最も類似度の高い文を選ぶ。
既にマッチした英語文は再利用しない(重複ペア防止)。
⑥ 未対訳英文の処理
英語文の中でどの日本語文にも対応しなかったものも表示。
Excelでは日本語は空欄となる。
⑦ 出現順の統合(並び替え)
Excel出力時の順番を自然な対訳順に近づけるため、
英語文の出現順を基準 に再構成する。
結果:
→ 英語ファイルに出てくる順番に、対応する日本語文または空欄が並ぶ。
→ 未対訳日本語文は 出力されない(現仕様では除外)。
⑧ 結果の表示と出力
抽出結果を画面に表示(上位10件のみプレビュー)
「 Excelでダウンロード」ボタンから translation_pairs_ordered.xlsx を取得できる。

コメント