【実践編】AI×会計業務はここまで来た ChatGPT・BERT・ハイブリッドモデルで「業務フローそのもの」を再設計する方法

2024〜2025年にかけての研究では、「AIで何ができるか?」という抽象的な議論から一歩進んで、
具体的に、どのAI技術を
どの業務プロセスに
どう組み込めば、どれくらい効くのか?
を示す「技術応用系」の研究が一気に増えてきました。
本記事では、代表的な論文をベースに、
- ChatGPT(LLM)
- BERT(事前学習言語モデル)
- GPT-4×BERTのハイブリッド
- ChatGPTエージェント化(API+RPA)
といった技術を、会計・税務の実務フローの中にどう埋め込めるかを、できるだけ具体的に整理します。
読者として想定しているのは、
- 公認会計士・監査人
- 税理士・会計事務所
- 経理・財務・経営企画のご担当者
です。「AIの中身」ではなく、業務をどう変えるかという視点で読んでいただければと思います。
1. なぜ「技術応用系」の研究に注目すべきか?
AI×会計の研究は大きく分けると、
- 概念・俯瞰系(AIが業界をどう変えるか)
- 実証系(試験問題や実データで効果を測る)
- 技術応用系(業務プロセスへの組み込み方を提案)
の3つに分かれます。
このうち、実務でシステムを作るときにそのまま設計指針になるのが、今回取り上げる「技術応用系」です。
- どのモデルを使うか(ChatGPT / BERT / 組み合わせ)
- どういう入力データを前提にするか(決算説明会の文字起こし、MD&A、年次報告書…)
- どこまでAIに任せて、どこから人間がレビューするか
といった設計の“型”が見えてきます。
2. 研究①:ChatGPTを使ったテキスト分析フレームワーク
― de Kok (2024/2025)
Ties de Kok の論文「ChatGPT for Textual Analysis? How to Use Generative LLMs in Accounting Research」は、
会計・財務テキストを分析する際に、ChatGPTのような生成AIをどう使えばいいか
について、フレームワーク+実験+コード例まで提示した総合ガイドです。(INFORMS Publications)
2-1. 何をしている研究か?
- 対象:決算説明会(earnings call)の文字起こし
- タスク:経営者が質問に対して「実質的に何も答えていない(ノンアンサー)」発言を自動で検出する
- 手法:ChatGPT等のLLMを使ったテキスト分析パイプラインを設計し、既存の統計モデルと精度比較
結果として、
- 従来手法に比べ、ノンアンサー検出精度の大幅向上(既存手法よりエラー率が大きく減少)
- 単なる精度比較だけでなく、
「どのモデルを選ぶか」「どうプロンプトを書くか」「妥当性をどう確認するか」という実務設計に直結するガイドラインを提示
が示されています。(Zhichong Lyu (吕志冲))
2-2. 実務にどう落とし込めるか?
この研究のポイントは、「テキスト分析タスクなら、うまく設計すればLLMだけでかなりのことができる」と実証したことです。
会計・税務実務への応用例としては:
- 決算説明会やIRカンファレンスのQ&Aで、
- 「答えていない質問」
- 「回答が不自然に楽観的な箇所」
をAIにハイライトさせる
- 監査・デューデリジェンスの一環として、
経営者インタビューの文字起こしをAIに流し、「要注意回答リスト」を自動生成する - 税務調査対応のヒアリング記録から、
論点が曖昧な回答・論理が飛んでいる説明を自動で抽出する
などが考えられます。
ポイントは、「テキストをそのまま読ませて終わり」ではなく、タスクとプロンプトを設計して“検出器”として使うことです。
3. 研究②:BERTによる不正会計検知モデル
― Bhattacharya & Mićković (2024)
「Accounting fraud detection using contextual language learning」は、BERTを使った不正会計検知モデルを構築した研究です。(サイエンスダイレクト)
3-1. 何をしている研究か?
- 対象:有価証券報告書などの財務報告テキスト
- 手法:
- 事前学習済みの BERT をベースに、
- 不正企業 vs 通常企業 のデータで微調整(ファインチューニング)
- 報告書テキスト+一部の定量データを組み合わせて不正リスクをスコア化
この結果、
- 従来の単純なキーワード分析やLDAトピックモデルより、
不正企業を当てる精度が有意に高い - テキストの「文脈」を理解することが、
粉飾の“匂い”を早期に捉えるのに有効
であることが示されています。(サイエンスダイレクト)
3-2. 実務にどう落とし込めるか?
この研究をそのまま実務に当てはめると、例えば:
- 上場企業ポートフォリオに対し、
「開示文書ベースの不正リスクスコア」を定期的に作成 - 監査・レビューのリスク評価プロセスで、
高スコア企業を重点監査対象としてピックアップ - 税務・移転価格分野では、
BEPSリスクの高そうな記述パターンをBERTで検出する
といった使い方が考えられます。
実務導入する場合は、
- モデルそのものを構築するか
- 既存ツール・APIで類似機能を利用するか
の選択になりますが、「テキスト×定量データを融合したリスクスコア」という発想自体は、そのまま設計に使えます。
4. 研究③:GPT-4×BERT融合モデルによる信用リスク評価
― Tan & Xie (2025)
Tan & Xie (2025) は、GPT-4(生成モデル)と改良版BERT(識別モデル)を組み合わせたハイブリッドモデルで、年次報告書等のテキストから信用リスクを評価する手法を提案しています。(PLOS)
4-1. 何をしている研究か?
- 課題:
- 長文テキスト(年次報告書など)の文脈理解
- 業界特有の専門用語の処理
- 信用リスク表現が暗示的・婉曲的であること
- 手法:
- GPT-4で潜在的なリスク情報を抽出(要約+特徴生成)
- 改良版BERTで特徴量を精緻にエンコード
- 双方を融合した二段階モデルでリスクスコアを算出
- 専門用語辞書やNER(固有表現抽出)も組み込み、
「どの部分がリスク要因か」を説明可能に
- 結果:
- 既存の単一モデルよりも、精度・汎用性・説明力が全て向上
- 製造業・不動産・金融など複数業種で有効性を確認(ResearchGate)
4-2. 実務にどう落とし込めるか?
この研究はクレジット業務向けですが、会計・税務の現場にも応用余地があります。
- 銀行・ノンバンク
- 与信審査時に、決算書+年次報告書のテキストから
「AIベースのリスクサマリー+スコア」を自動生成
- 与信審査時に、決算書+年次報告書のテキストから
- 監査法人・会計事務所
- 新規クライアント受嘱時に、
公開情報をもとに「ビジネスモデル・財務リスクのAI要約」を作る
- 新規クライアント受嘱時に、
- 事業会社の財務部門
- 主要な取引先について、
年次報告書・ニュースをもとに「取引先信用リスクダッシュボード」を構築
- 主要な取引先について、
「生成モデルで文脈を理解させ、識別モデルでスコアリングする」という構成は、
今後の会計AIシステムの基本パターンの一つになりそうです。
5. 研究④:ChatGPTエージェントとタスク分類
― Leitner-Hanetseder et al. (2025)
「ChatGPT as digital accounting assistant: evaluating output performance in financial accounting tasks」は、
ChatGPTが会計判断タスクをどこまでこなせるのか?
を、Dreyfusモデル(技能レベル)に基づくタスク分類で評価した研究です。(pure.fh-ooe.at)
5-1. 何をしている研究か?
- 対象:
- 財務会計に関する判断タスク(IFRS・ローカルGAAP)
- 実験設計:
- 4つのタスクカテゴリ × 6つのGPTモデル × 2種類のプロンプト
など、480プロンプト以上で網羅的に検証
- 4つのタスクカテゴリ × 6つのGPTモデル × 2種類のプロンプト
- 特徴:
- タスクを「初心者〜熟達者」レベルに分類し、
どのレベルまでAIに任せられるかを分析
- タスクを「初心者〜熟達者」レベルに分類し、
結論としては、
- 仕訳や基本的な会計処理などルールが明確なタスクにはかなり強い
- 一方で、
- グレーゾーン判断
- 複数基準が絡むケース
- 経営者意図の読み取り
など、高度な専門判断が問われるタスクは一貫性に課題
という結果になっています。(エメラルド)
5-2. 実務にどう落とし込めるか?
この論文から得られる実務的示唆は、
「どのレベルのタスクをAIエージェントに任せ、どこから人が見るか」を設計する指針になる
という点です。
例えば:
- レベル1〜2(ルールが明確・パターン化しやすい)
- 勘定科目の候補提案
- 簡単な会計処理の説明文生成
- マニュアルからの該当条文検索
- レベル3〜4(コンテキスト理解+判断)
- 会計基準の選択
- 複数案の中から最適処理を選ぶ
- リスク・重要性評価
→ AIが案を出し、人間が最終判断
この「タスクレベル×AIの得意・不得意」の整理は、
ChatGPTをAPIやRPA経由で“エージェント化”するときの基本設計図になります。
6. 4つの構築パターン:研究を実務システムに落とすとどうなるか?
ここまでの研究を踏まえて、
会計・税務の現場で実際にシステムを組むとしたら、代表的なパターンは次の4つです。
パターンA:決算説明会・IRの「ノンアンサー検知」システム
想定ユーザー:経営企画、IR部門、監査人
やりたいこと
決算説明会・アナリスト説明会のQ&Aを自動で解析し、
- 質問に実質的に答えていない発言
- 過度に楽観的で根拠が薄い回答
をリストアップする。
システム構成イメージ
- 録画データ → 文字起こし(既存の音声認識サービス)
- de Kok型フレームワークに沿って、
- LLMに「この回答は質問に答えているか?」を判定させる
- ノンアンサー/曖昧回答をタグ付け
- ダッシュボードで、
- 質問一覧
- AI判定(回答度合い)
- 該当箇所のテキスト抜粋
を表示
導入メリット
- 監査・投資判断の“気になるポイント”列挙を自動化
- 経営者のコミュニケーション改善にも活用可能
パターンB:開示文書の不正・粉飾リスク監視
想定ユーザー:監査法人、アナリスト、CFO室
やりたいこと
有価証券報告書やMD&Aから、粉飾の匂いがするテキストを検出し、リスクスコアを付与する。
システム構成イメージ
- 上場企業の開示文書を定期クローリング
- Bhattacharya & Mićković 型の発想で、
- BERT系モデルでテキストをエンコード
- 過去の不正事例を教師データにリスクスコアモデルを構築
- 企業ごとに、
- 不正リスクスコア
- リスク高と判定された文脈のハイライト
をダッシュボード表示
導入メリット
- リスクアセスメントの初動をAIに任せ、人は深掘りに集中できる
- 継続的モニタリングが可能(四半期ごとに自動更新)
パターンC:与信・格付けの「テキスト分析コンポーネント」
想定ユーザー:金融機関、事業会社の財務部
やりたいこと
年次報告書・ニュースなどのテキストから、取引先の信用リスクをスコアリングする。
システム構成イメージ
- タン&シェ(Tan & Xie)型の構成を参考に:
- GPT-4で長文からリスク要因を抽出・要約
- BERT系モデルで特徴量として再エンコード
- 既存のスコアリングモデル(財務比率など)と組み合わせて総合リスクスコアを出す
- UIでは、
- スコア
- リスク要因のテキスト抜粋
- 業界平均との比較
を1画面で確認できるようにする
導入メリット
- これまで読めていなかった「テキスト情報の山」を、スコア+要約に変換
- 与信会議・取締役会資料のたたき台を自動生成できる
パターンD:ChatGPTエージェントを組み込んだ「会計コパイロット」
想定ユーザー:会計事務所、経理部門
やりたいこと
仕訳の相談・基準の検索・税務Q&AなどをChatGPTエージェントにある程度任せる一方で、
最終判断は専門家が行う「コパイロット型」の仕組みを作る。
設計のポイント(Leitner-Hanetseder型)
- タスクをレベル分けする(Dreyfusモデル)
- レベル1〜2:ルールが明確なタスク(AIにかなり任せる)
- レベル3〜4:文脈+判断が必要(AIは案を出すだけ)
- システム側で、
- レベル1〜2タスク → API+RPAでほぼ自動処理
- レベル3〜4タスク → AIの回答をドラフト扱いにし、人間がレビュー
- ログとプロンプトを保存し、
- 誤回答のパターン
- プロンプト改善アイデア
を定期的に見直す
導入メリット
- 「とりあえずAIに聞く」状態から一歩進み、
「どこまでAIに任せ、どこから人が責任を持つか」を明確化できる - 将来的には、RPA+APIで半自動ワークフローまで拡張可能
7. 小さく始めるための3ステップ
ここまで読むと「面白そうだけど、ハードルが高そう…」と感じるかもしれません。
いきなりBERTの学習やハイブリッドモデル構築から始める必要はありません。
ステップ1:ChatGPTを「分析メモ係」として使ってみる
- 決算説明会の文字起こし・開示文書・社内レポートを入れて、
- 「ノンアンサーっぽい箇所を教えて」
- 「リスク要因だけ箇条書きにして」
などのプロンプトを試す
→ プロンプト設計と、AIの得意/苦手を体感するフェーズ
ステップ2:簡単なワークフロー化(ノーコード・ローカルツール)
- Zapier / Make / Power Automate などと組み合わせて、
- ファイルアップロード → AI要約 → メール通知
くらいの自動化を作る
- ファイルアップロード → AI要約 → メール通知
- 機密データは、
オンプレミス・閉域環境向けのLLMサービスも検討
ステップ3:本格導入(BERT・ハイブリッド・エージェント)
- リスクスコアリングや継続モニタリングが必要になってきた段階で、
- BERT系モデルによるテキスト分類
- GPT-4+BERTのハイブリッド構成
- ChatGPTエージェント+RPA
を、個別案件・製品として検討
8. まとめ:AIは「業務フローの一部品」として設計する時代へ
今回ご紹介した研究は、どれも
- 「AIですべてが変わる」ではなく、
- 「どのプロセスに、どのAIコンポーネントを、どうはめ込むか」
というレベルの具体性を持っています。
- de Kok:LLMを使ったテキスト分析フレームワーク
- Bhattacharya & Mićković:BERTによる不正検知モデル
- Tan & Xie:GPT-4×BERTハイブリッドによる信用リスク評価
- Leitner-Hanetseder:ChatGPTタスク分類とエージェント設計指針
これらを組み合わせることで、
「AIを使うかどうか」ではなく、
「AIをどこまで、どう責任分担して使うか」
を設計するフェーズに入っている、と言えます。
会計・税務の現場でAIを検討されている方はF、
まずは自社/自事務所の業務フローを分解し、
- テキストを大量に読んでいるところ
- リスク評価に時間がかかっているところ
- ルーティン判断を繰り返しているところ
から、小さなPoC(検証)を始めてみるのがおすすめです。
参考文献
- de Kok, T. (2025). ChatGPT for Textual Analysis? How to Use Generative LLMs in Accounting Research. Management Science, 71(9), 7888–7906. (INFORMS Publications)
- Bhattacharya, I., & Mićković, A. (2024). Accounting fraud detection using contextual language learning. International Journal of Accounting Information Systems, 53, 100682. (サイエンスダイレクト)
- Tan, H., & Xie, Y. (2025). Financial text analysis and credit risk assessment using a GPT-4 and improved BERT fusion model. PLOS ONE, 20(11), e0336217. (PLOS)
- Leitner-Hanetseder, S., et al. (2025). ChatGPT as digital accounting assistant: Evaluating output performance in financial accounting tasks. International Journal of Accounting Information Management. (エメラルド)
- Mökander, J. (2023). Auditing of AI: Legal, Ethical and Technical Approaches. Digital Society, 2(49). (INFORMS Publications)


