日英のWordファイルから対訳表(.xlsx)を自動で作る

翻訳
Programmer working on web development code. Engineer programming in python, php, java script on computer. Vector illustration professional software developers concept

ドラフト版
AIでためしてみた。

アプリ(Streamlit)(別ウインドで起動します。)

「日英Wordファイルから全対訳候補を抽出し、出現順を維持してExcelにまとめるStreamlitアプリ」。
以下、仕様

① パスワード認証機能

最初に「パスワード入力欄」が表示される。
設定されている今日のパスワードは pondering2025

正しく入力し「ログイン」ボタンを押すとアプリ本体が表示される。

間違った場合は「パスワードが間違っています」と表示される。

② Wordファイルのアップロード

2つのファイルをアップロード:

日本語文書(ja_file)
英語文書(en_file)
(.docx ファイルのみ受け付ける。)

両方アップロード後、「抽出開始」ボタンを押すと処理開始。

③ 文の抽出処理

Word内の段落を走査して文を抽出。
改行・句読点で分割し、段落番号・文番号付きでリスト化。

日本語文抽出
→ 「。」「!」「?」または改行で文を区切る。

英語文抽出
→ ピリオド・疑問符・感嘆符で文を区切る。ただし略語(例: i.e., e.g.)や数字付き見出し(例: 1.1)などを考慮。
→ 残りの文も切り捨てず最後に追加。

④ 類似度計算

日本語・英語の文をそれぞれベクトル化。

⑤ 対訳ペアの抽出(メインロジック)

日本語文を順番に取り出し、英語文の中から最も類似度の高い文を選ぶ。
既にマッチした英語文は再利用しない(重複ペア防止)。

⑥ 未対訳英文の処理

英語文の中でどの日本語文にも対応しなかったものも表示。
Excelでは日本語は空欄となる。

⑦ 出現順の統合(並び替え)

Excel出力時の順番を自然な対訳順に近づけるため、
英語文の出現順を基準 に再構成する。

結果:
→ 英語ファイルに出てくる順番に、対応する日本語文または空欄が並ぶ。
→ 未対訳日本語文は 出力されない(現仕様では除外)。

⑧ 結果の表示と出力

抽出結果を画面に表示(上位10件のみプレビュー)

「 Excelでダウンロード」ボタンから translation_pairs_ordered.xlsx を取得できる。

コメント

タイトルとURLをコピーしました