【2025年版】AI×会計・税務「実証研究」が示す7つの知見―― 試験・税務相談・不正検知・信用リスクまで

2025年11月19日 2025年11月20日

ryotarohoshina

ここ数年、ChatGPT をはじめとする生成AI・大規模言語モデル（LLM）を
「実際の会計・税務の仕事にどこまで使えるか？」という観点で試す動きが一気に増えました。

たとえば、こんな問いが世界中で検証されています。

試験問題をどれくらい解けるのか？
税務相談を任せたら、どれくらい危ないのか？
開示文から不正会計や税務調査リスクを見抜けるのか？
融資・与信の審査に使えるレベルなのか？

本記事では、海外の論文や実務での PoC（試験導入）の内容をベースに、

どの領域で AI が強いのか
どこはまだ人間のチェックが必須なのか
会計士・税理士・一般事業者がどう活かせるのか

を、できるだけわかりやすく整理します。

1. 資格試験レベルのタスクで見えてきたこと

1-1. ChatGPT 3.5 は「そこそこできる」が、学生には負ける

ある海外の分析では、会計の試験問題・テストバンク問題を
2万5,000問以上 ChatGPT 3.5 に解かせています。

結果のイメージはこんな感じです。

学生の平均：約 76〜77％正解
ChatGPT 3.5：約 47〜56％正解（部分点込みでもこのレベル）

つまり、

「そこそこ解けるけれど、普通の会計学生には明確に負けている」

という状態です。

ここからの示唆

3.5 世代までは「試験一発合格レベルの即戦力」ではない
むしろ、
- 練習問題の解説を作る
- 自習用の質問相手になる
  など、「学習を補助するツール」としての位置づけが現実的です。

教育現場では「カンニングの道具」として排除するかどうかではなく、
自習の相棒としてどう設計するか がポイントになってきます。

1-2. GPT-4＋工夫で「資格試験に合格圏内」まで行ける

その後の別の分析では、
CPA・CMA・CIA・EA といった主要資格試験の問題を使い、

モデルの世代（3.5 → 4）
プロンプトの工夫
外部ツール（電卓など）との連携

を組み合わせて性能を検証しています。

ステップごとの改善イメージはこうです。

ChatGPT 3.5 単体
- 平均スコア：53.1％（当然ながら不合格レベル）
GPT-4 に変更
- 平均で +16.5ポイント 改善
Few-shot（例題を10問ほど見せてから本番）
- さらに +6.6ポイント
ReAct という仕組みで電卓など外部ツールも使わせる
- さらに +8.9ポイント

→ 最終的に、

平均 85.1％で、すべての試験が「合格圏内」

まで到達しています。

ここからの示唆

モデルの世代だけでなく、
「設計の仕方（プロンプト・ツール連携）」で性能が一気に変わる
きちんと設計された「LLMエージェント」であれば、
会計・税務の専門試験レベルの知識タスクもこなせる可能性が高い

1-3. どのタスクをAIに任せて、どこを人間が見るべきか

別の分析では、ChatGPT を「デジタル会計アシスタント」として使ったときに、

どの種類のタスクが得意か
どこで精度が落ちるか

を細かく評価しています（IFRS とローカル基準の両方で検証）。

ざっくりまとめると：

AIが得意

概念説明・基本的な仕訳
IFRS など「世界共通に近いルール」に基づく典型パターン

そこそこだが注意が必要

数値計算（ケアレスミスが出ることがある）

苦手・不安定になりやすい

各国のローカル基準の細かい扱い
グレーゾーン・裁量の大きい論点
重要性（materiality）や開示方針といった判断が絡む部分

実務への線引きイメージ

AI に任せやすいところ
- IFRS ベースの典型仕訳
- 教材レベルの Q&A
- 社内研修で使う説明テキストのたたき台
必ず人間が見るべきところ
- 国ごとのローカルルール・税務上の扱い
- グレーゾーン・裁量の大きい判断
- 開示方針や重要性判断など、責任が重い部分

2. 税務相談を「そのままAIに任せる」のはまだ危険

2-1. 一般納税者向けの税務Q&Aは、現状かなりリスクあり

米国税法を題材にしたある調査では、

一般的な税務質問を用意
ChatGPT に回答させる
税務専門家が内容を評価

という形で、「一般納税者が AI に税務相談したらどうなるか？」を確認しています。

結果としては、かなり厳しい評価でした。

完全に正しい回答もある一方で、
「一部は正しいが、重要な点が抜けている」
「もっともらしいが結論がズレている」

といった回答が多数見つかっています。

特に、

控除・特例
期限・手続き

といった、実務上クリティカルな論点で誤りや抜け漏れが目立った、という報告です。

ここからの実務的な示唆

「一般の納税者が、AI に直接税務相談する」のは現状かなり危険
事務所として AI を使うなら、
- 税理士のレビュー前提
- 常に最新法令・通達で更新された独自データベース＋RAG（検索拡張）
  がほぼ必須

3. 不正会計・税務調査・信用リスク：テキスト分析系はかなり有望

3-1. 開示テキストから「不正の匂い」を検知する

ある分析では、米国企業の 10-K（年次報告書）の MD&A（経営者による説明）部分を使い、

後から不正が発覚した企業
通常の企業

を比較するモデルを作っています。

やっていることはシンプルで、

MD&A の文章を BERT系モデルで数値化
不正企業かどうかを分類

という流れです。

結果として、

財務指標だけのモデルより、テキストを加えたモデルの方が高精度
MD&A の
- トーン（やたら楽観的・曖昧）
- 言葉遣いのパターン
  が、不正の事前シグナルとして効いている

という結論が出ています。

実務イメージ

監査・デューデリジェンス・投資分析などで、
AI が「怪しい表現」をハイライト
人間がその企業を重点的に深掘りする

という、「リスクベースのスクリーニング」にかなり相性が良い領域です。

3-2. 開示文から「税務調査フラグ」をつくる

別の事例では、企業の開示文書を生成AIに読ませ、

「税務調査中」
「税務当局との係争」

といった記述を自動で拾い上げ、
企業×年度ごとの「税務調査が行われているフラグ」 を立てています。

そのフラグを、公的な税務当局データと比べても、

かなり整合的な結果が出ている

という報告です。

ここから見える未来像

税務当局だけでなく、企業側も
- 自社
- 同業他社
  の「税務調査リスク」を開示文からモニタリングする
将来的には、
「開示文の書き方」自体が AI に評価される

そんな世界も現実味を帯びてきます。

3-3. 年次報告書から信用リスク（デフォルトリスク）を読む

別の分析では、

GPT-4 で年次報告書テキストを要約・特徴抽出
改良版 BERT モデルで文脈情報を補強
これらを組み合わせて信用リスクを予測

というモデルを提案しています。

結果として、

従来のテキストモデル
財務指標だけのモデル

よりも高い精度で、信用リスクを予測できたとのことです。

実務イメージ

銀行やノンバンクの与信・審査の現場で、
- AI が年次報告書を読み込んで「信用リスクスコア」を算出
- 担当者はスコアとその根拠となる文章を確認し、最終判断

という “co-pilot” 的な使い方が見えてきます。

4. 「論文の中」だけではなく、実務PoCでも見えてきたこと

論文だけでなく、実際のプロジェクトでも「どこまで使えるか」が見え始めています。

4-1. 三菱商事 × PwC：契約・保証関連データの抽出（日本の事例）

PwC税理士法人は、三菱商事と会計・税務関連業務の生成AI PoC を行い、次のような結果を公表しています。

対象

保証関連契約書
残高証明書など

AIにやらせたこと

必要な金額・条件などの項目抽出
支払調書提出の要否判定など

結果（イメージ）

契約・証明書からの情報抽出精度：約 97％
支払調書要否判定の再現率：約 98％

示唆

「フォーマットはバラバラだが、見るべきポイントは決まっている」タイプの仕事にとても相性が良い
税務・会計の現場では、
契約書・証憑をAIに一次読み込みさせ、人間が確認する
という使い方が現実路線と言えます。

4-2. KPMG の「TaxBot」：RAG＋エージェントで税務意見書のたたき台

KPMG は、公共の ChatGPT 利用に伴うデータ漏洩リスクを踏まえ、
社内クローズドな AI プラットフォーム「Workbench」を構築しています。

その上で、オーストラリアのチームが開発したのが「TaxBot」です。

TaxBot のイメージ

社内の税務メモ・過去案件・税法データを RAG で連携
大量のルール（100ページ超のプロンプト）で振る舞いを定義
従来 2 週間かかっていた 25ページ規模の税務アドバイス草案を、
1日程度で生成できるレベル まで到達

ただし設計はかなり慎重で、

操作できるのはライセンスを持つ税務専門家のみ
AI はあくまで「ドラフト作成」、最終責任は人間

というガバナンスになっています。

4-3. Crete Professionals Alliance：監査メモ・データ整備をAIで高速化

米国の会計ファーム Crete は、OpenAI ベースの AI を

クライアントデータの標準化
監査調書ドラフト作成

などに組み込み、大幅な時間削減 を実現していると報じられています。

共通しているのは、

「どこまでをAIに任せるか」を明確に決めている
クローズド環境＋RAG＋人間レビューがセット
顧客に出す最終成果物は、必ず人間が責任を持つ

という基本方針です。

5. ここまでの内容から見える「7つの実務インサイト」

ここまでの海外動向と事例を、会計士・税理士・一般事業者の目線で整理すると、
おおよそ次の 7 点にまとめられます。

資格試験レベルの知識タスクは、“設計次第でかなりできる”
- GPT-4＋プロンプト工夫＋ツール連携で、合格圏レベルまで行けることが確認されている。
そのまま税務相談窓口にするのは、まだ危険
- 一般向けの税務Q&Aで、重要な抜け漏れや誤答が多く報告されている。
- 専門家レビューなしで顧客に見せるのは NG。
テキスト分析による“不正・リスクのスクリーニング”はかなり有望
- MD&A や注記のテキストから、従来より高精度で不正企業や高リスク企業を見つけられる例が出ている。
税務調査フラグのような“ラベルづくり”にもAIが使える
- 開示文から「税務調査中かどうか」を判定するなど、政策研究・コンプライアンス分析向けの新しい指標が作れる。
契約書・証憑の読み取りなど“紙仕事”への適用は、すでに実用レベルが見えている
- 三菱商事の PoC など、精度 97〜98％の事例も出ている。
実務導入の鍵は「クローズド環境＋RAG＋人間レビュー」
- KPMG TaxBot のように、
  - 社内データ＋法令を RAG で束ね
  - 専門家だけが操作し
  - 最終アウトプットは人間が責任を負う
    という枠組みが現実的。
「AI か人か」ではなく、「どのタスクをAIに、どのタスクを人に任せるか」の設計勝負
- 読み込み・ドラフト・候補抽出といったルーティンはAI、
- 判断・説明・クライアント対応は人間、
  という役割分担で全体最適を図る発想が重要。

6. 会計事務所・税理士事務所・一般企業が「明日からできる」導入ステップ

最後に、現場での具体的な一歩を 3 ステップで整理します。

Step 1：本番データを使わない「安全な領域」で試す

まずは、機密情報を含まない範囲から始めます。

会計基準・税法・通達・社内マニュアルの要約・比較
メール・説明資料・議事録のドラフト作成
社内向け Q&A（「この勘定科目はどの基準を参照すべき？」など）

ここで、

「AI に何をどう聞けばよいか」
「どのくらいの精度で返ってくるか」

をチーム全体で体感し、「共通言語」を作ることが目的です。

Step 2：クローズド環境＋RAGで「書類読み・調査」を半自動化

次のステップとして、

オンプレミス or 専用テナント型の LLM 環境を用意
以下のような文書を RAG に取り込む
- 過去の意見書・メモ・調書
- 会計基準・税法・通達
- 内部マニュアル・ FAQ

典型ユースケース

減損・リース・収益認識など、論点整理メモのたたき台作成
税務スキームの選択肢・論点の洗い出し
契約書から必要項目（金額・条件・期限など）の自動抽出

「調べ物＋下書き」の時間を大幅に減らし、
判断・説明に時間を回すフェーズ です。

Step 3：テキスト分析で「リスク・不正のスクリーニング」を始めてみる

さらに一歩進めるなら、テキスト分析系の簡易な仕組みを試してみるのがおすすめです。

対象データの例

年次報告書
有価証券報告書・決算短信
開示注記・MD&A など

これらをテキスト化し、

トーン分析（やたら楽観的・曖昧な表現はないか）
特定キーワードのパターン
過去の不正企業・高リスク企業との類似度

などを AI に判定させて、
「要注意先リスト」 を作ります。

すべての企業を同じ深さで見るのではなく、
「どこを深く見るか」を AI と一緒に決めるフェーズ です。

おわりに：AIは「会計・税務の終わり」ではなく「再設計のきっかけ」

ここまで見てきた海外の動きから言えるのは、

AIは会計・税務の仕事を奪う技術ではなく、
　仕事の中身と価値を“再設計させる技術”になりつつある

ということです。

ルーティンは確実に自動化されていく
しかし、判断・説明・ガバナンス・倫理は、むしろ重要度が増す
この再設計を主導できる専門家・企業が、次の10年で強くなる

「AI に仕事を奪われる側」になるのか、
「AI を使って仕事の質とスピードを上げる側」になるのか。

今の小さな一歩の積み重ねが、数年後の差につながっていきます。

参考文献

Wood, D. A., et al. (2023). The ChatGPT Artificial Intelligence Chatbot: How Well Does It Answer Accounting Assessment Questions? Issues in Accounting Education. (portal.findresearcher.sdu.dk)
Eulerich, M., et al. (2024). Is it all hype? ChatGPT’s performance and disruptive potential in the accounting and auditing industries. Review of Accounting Studies. (スプリンガーリンク)
Leitner-Hanetseder, S., et al. (2025). ChatGPT as a digital accounting assistant: evaluating output performance in financial accounting tasks. International Journal of Accounting & Information Management. (エメラルド)
Antinozzi, H. S., & Cooper, L. A. (2025). Is ChatGPT an Accurate Source of Information for Uninformed Taxpayers? Journal of Emerging Technologies in Accounting. (publications.aaahq.org)
Bhattacharya, I., & Mićković, M. (2024). Accounting fraud detection using contextual language learning. International Journal of Accounting Information Systems. (EconPapers)
Choi, G. Y., et al. (2024). Firm-Level Tax Audits: A Generative AI-Based Measurement. SSRN Working Paper. (SSRN)
Tan, H., & Xie, Y. (2025). Financial text analysis and credit risk assessment using a GPT-4 and improved BERT fusion model. PLOS ONE, 20(11), e0336217. (PLOS)
PwC Tax Japan (2024). Proof-of-concept project to reform accounting operations using generative AI (Mitsubishi Corporation case). (PwC)
KPMG (2025). KPMG Workbench and TaxBot case – private LLM platform for tax advice automation. (TechRadar)
Reuters (2025). Thrive-backed accounting firm Crete to spend $500 million in AI roll-up. (Reuters)

＼最新情報をチェック／

カテゴリー: 金融・会計

タグ: AI 会計

【2025年版】AI×会計・税務「実証研究」が示す7つの知見―― 試験・税務相談・不正検知・信用リスクまで