Claude Sonnet 5の実力を数字で読む

新しいClaudeの標準モデルが出ました

2026年6月30日、AnthropicがClaude 5世代の標準モデルであるClaude Sonnet 5を公開しました。Claudeにはグレードがいくつかあり、Sonnetはその中で真ん中に位置します。最上位モデルほどの馬力はない代わりに、価格と速度のバランスが良く、ChatGPTでいえば無印のGPTにあたる、多くの人が日常的に触る主力グレードです。Claudeのアプリを開いて普通に質問したとき、裏で動いているのはたいていこのクラスのモデルです。

公開から2日、独立系の評価サイトであるArtificial Analysisが測定結果を公開しました。Artificial Analysisは、世界中のAIモデルを同じ条件のテストで測り、賢さ・速度・価格を横並びで公開している海外のサイトです。メーカー自身の発表は自社に有利な条件で測った数字が混ざりがちですが、こちらは第三者の実測なので、モデル選びの物差しとしてよく参照されます。

こうした測定はベンチマークと呼ばれます。ベンチマークとは、共通のテスト問題を解かせてモデルの性能を点数化した、いわば成績表のことです。ただ、この成績表は数字の羅列で、そのままでは自分の仕事に関係があるのか判断できません。**この記事では、Sonnet 5のベンチマーク結果を、経理や総務、個人事業主の日常業務にどう効くかという視点で読み直します。**新製品のスペック紹介ではなく、来月の業務のどこに組み込むか、いくらかかるか、何に気をつけるかという意思決定の材料として使える形にするのが狙いです。

何が起きたか：162モデル中5位という結果

Artificial Analysisの測定結果を数字で確認します。まず賢さの総合点であるIntelligence Index（知能指数）は53で、測定対象162モデル中の5位でした。このスコアは、数学、プログラミング、論理的な読解など複数のテストを束ねた総合成績です。測定対象のモデル全体の中央値が29なので、53という数字は上位グループに明確に入っています。標準グレードのモデルが世界5位というのは、最上位モデル専用だった性能が普段使いの価格帯に降りてきたことを意味します。

速度は1秒あたり78.9トークンでした。トークンとは、AIが文章を処理する単位で、日本語ではおおむね1〜2文字が1トークンに相当します。つまり1秒に数十文字から100文字超のペースで文章が出てくる計算で、人が読む速度よりは十分に速い水準です。議事録1本分の要約なら、待ち時間は数十秒に収まります。

価格は、API（自社のシステムからAIを呼び出す仕組み）経由で使う場合、読み込ませる文章が100万トークンあたり3ドル、AIが書き出す文章が100万トークンあたり15ドルです。1ドル150円で換算すると、それぞれ約450円と約2,250円になります。イメージをつかむために試算すると、300ページの社内マニュアル（約20万トークン）を丸ごと読ませて質問しても、読み込み側の費用は1回あたり100円弱です。同じ資料を繰り返し読ませる場合の割引（キャッシュ）を使うと、読み込み側は0.30ドル、9割引まで下がるので、毎日同じマニュアルを参照させる使い方なら1回10円以下になります。

そしてもうひとつ、実務への影響が大きいのがコンテキストウィンドウです。コンテキストウィンドウとは、AIが一度に覚えていられる文章量の上限を指します。Sonnet 5は100万トークン、A4用紙でおよそ1,500ページ分です。契約書の束や1年分の議事録を、分割せずそのまま渡せる容量になりました。

ベンチマークで見る3つの指標

数字の読み方：順位より「自分の基準を超えたか」

ベンチマークの読み方には、非エンジニアの方が押さえておくべきコツがあります。順位の上下を追いかけないことです。AIモデルの順位は数か月ごとに入れ替わります。今日5位のモデルが来月7位になっても、あなたの請求書チェックの精度は1ミリも変わりません。見るべきは順位ではなく、自分の仕事に必要な水準を超えたかどうかの一点です。

では、日常業務に必要な水準とはどのあたりでしょうか。私の感覚では、文書の要約、メールの下書き、データの分類、議事録の整理といった業務は、知能指数40前後のモデルでもすでに十分こなせます。スコア53のSonnet 5は、そこに加えて、複数の資料をまたいだ矛盾の発見や、条件が入り組んだ判断（この取引先は契約条項Aに該当するが例外規定Bの対象か、など）まで守備範囲に入ってきます。

自分の基準を超えたかどうかは、実際の業務で確かめるのが一番確実です。おすすめは、答えを自分が知っている過去の仕事を1つ流用することです。先月すでに仕上げた議事録の元データを渡して要約させ、自分の完成版と見比べる。先期すでに仕訳を終えた請求書を分類させ、確定済みの帳簿と突き合わせる。答え合わせができる題材なら、精度を体感ではなく件数で測れます。20件中19件合っていれば任せ方を考える段階に入れますし、20件中12件なら、その業務はまだ人が主導すべきだと判断できます。

もうひとつの読み方のコツは、賢さと価格をセットで見ることです。Artificial Analysisの講評では、Sonnet 5は知能ではトップ級だがやや高価、そして出力が長め（verbose）と評されています。出力が長いというのは、聞いたこと以上に丁寧に説明を書いてくれる性格だということです。読む側には親切ですが、API利用では書き出した文章量に課金されるため、費用がかさむ方向に働きます。この性格は後述する費用の注意点に直結します。

非エンジニアにとっての本当のニュースは1,500ページです

知能指数5位という見出しよりも、私が重要だと考えているのはA4約1,500ページ分という記憶容量のほうです。理由は単純で、非エンジニアがAI活用でつまずく最大のポイントは、賢さ不足ではなく資料の渡し方だからです。

これまでのAI活用では、長い資料を人間が事前に切り分ける作業が必要でした。就業規則を章ごとに分割して、順番に読ませて、途中で前の章の内容を忘れられて、また貼り直す。この下ごしらえが面倒で、結局AIに聞くより自分で読んだほうが早い、となって定着しない。10人規模の会社でAI導入が続かない理由の多くはここにあります。

100万トークンあれば、この下ごしらえがほぼ不要になります。フォルダに溜まった1年分の月次資料、過去の契約書一式、マニュアルの全編。そういう資料の山を山のまま渡して、全体を踏まえた質問を1回で投げられます。たとえば総務担当なら、就業規則・育児介護休業規程・慶弔見舞金規程・旅費規程をひとまとめに渡して、時短勤務の社員が慶弔休暇を取る場合の扱いはどの規程のどの条文に基づくか、と横断で聞けます。規程間の整合まで見た答えが返ってくるのは、全部を一度に読めるからです。AIに仕事を渡すときの単位が、ページ単位からフォルダ単位に変わった。これが今回の結果の実務的な意味です。

なお、この容量を毎回使い切る必要はありません。普段は数ページの資料で十分ですし、そのほうが速く安く動きます。年に数回の棚卸しや監査対応のような、資料が膨大な局面で効いてくる保険だと捉えてください。

業種別の活用シナリオ：経理・社労士・マーケ会社

数字を仕事に翻訳します。3つの業種で、Sonnet 5クラスのモデルが具体的にどこに効くかを描きます。

従業員30名の卸売会社で経理を担当している方の場合。月次決算の前に、営業担当が経費精算を出し遅れる、請求書の但し書きが曖昧で勘定科目に迷う、という小さな滞りが積み重なっているはずです。ここでSonnet 5に、当月の請求書PDFをまとめて渡し、社内の勘定科目ルール（これも文書ごと渡します）に照らして科目の候補と迷った理由を一覧にさせます。判断はあくまで経理担当者が行いますが、200枚の請求書を1枚ずつ開いて考える時間が、一覧を確認して例外だけ精査する時間に変わります。1,500ページの容量があるので、期末には1年分の仕訳データを丸ごと渡して、科目のブレや異常値の洗い出しを頼む使い方もできます。前期は消耗品費だった同じ取引先の請求が今期は雑費になっている、といった人の目では拾いにくいブレを一覧で出せるのは、通期のデータを一度に読めるからです。

所長とスタッフ3名の社労士事務所の場合。2026年の法改正対応で、顧問先30社の就業規則を順に点検する仕事があるとします。改正内容の解説資料と顧問先の就業規則全文を一緒に渡し、改正の影響を受ける条文の候補と修正案の下書きを出させます。従来は規則を分割して渡す必要があり、条文間の参照関係（第8条が第32条を引用している、など）が切れて精度が落ちていました。全文を一度に読めるようになったことで、この参照関係を保ったまま点検できます。1社あたりの点検時間が半日から1時間台に縮めば、顧問先への案内を改正の告知前倒しで打てるようになり、事務所の付加価値そのものが変わります。

10人規模のマーケティング会社の場合。クライアントのブランド調査で自由回答が2,000件返ってきた、という場面を考えます。従来はアルバイトを入れて3日かけて分類していた作業です。回答データを丸ごと渡し、分類軸の設計から任せると、軸の候補、各回答の分類、代表的な生声の抽出までを数十分で往復できます。知能指数53クラスの強みは、単純な仕分けではなく、この分類軸は切り口として浅くないかという議論の相手までできることです。報告書の骨子まで下書きさせれば、人間の仕事は分析の妥当性チェックと提案部分の練り込みに集中できます。

ひとりで仕事を回している個人事業主にも同じ構図が当てはまります。たとえばフリーランスのWebデザイナーなら、過去3年分の見積書と実際にかかった工数メモを丸ごと渡して、赤字になりやすい案件の共通点を洗い出させる。従業員のいない事業では分析に割ける時間が最も希少なので、この種の振り返りこそ渡す価値の高い仕事です。

そのまま使える実践手順：今日から5ステップ

Sonnet 5クラスのモデルを仕事に組み込む手順です。プログラミングは一切不要で、ブラウザだけで完結します。

Sonnet 5を仕事で試す5ステップ

第1ステップは、claude.aiにアクセスしてアカウントを作ることです。無料プランで始められます。会社の機密資料を扱う前に、まず公開情報や自分のメモで感触を確かめてください。所要時間は5分です。

第2ステップは業務の選定です。コツは、頭を使う仕事ではなく、手順は決まっているのに時間を食う仕事を選ぶことです。議事録の清書、問い合わせメールへの一次返信案、データの転記チェックあたりが定番です。迷ったら、月末や月初に必ずやっていて、やり方を新人に口頭で説明できる業務を選んでください。説明できる業務は、そのまま指示文に書き起こせます。

第3ステップで実際に依頼します。資料のPDFやExcelを画面に添付し、指示文には背景（私は卸売会社の経理担当です）、依頼（添付の請求書を勘定科目ごとに分類してください）、出力形式（表形式で、判断に迷ったものは理由つきで別枠に）の3点を書きます。この3点を書くだけで出力の質は目に見えて変わります。逆に、資料だけ添付して要約して、とだけ書くと、的外れな粒度の答えが返ってきて、AIは使えないという誤った結論に着地しがちです。

第4ステップは検証です。最初の1か月は、AIの出力を全件、人の目で確認してください。どこを間違えるか、どこは任せられるかの境界線が見えてきます。たとえば議事録の清書なら、発言の要約はほぼ任せられるが、決定事項と宿題の区別は時々誤る、という具合に癖がつかめます。この境界線こそが、あなたの会社にとってのAI活用ノウハウになります。

第5ステップで、うまくいった指示文を保存します。メモアプリでもWordでも構いません。毎月同じ指示文に当月の資料を添付するだけ、という状態まで持ち込めれば、それはもう業務フローの一部です。チームがあるなら、この指示文集を共有するのが横展開の最短ルートです。

注意点とよくある誤解

ベンチマーク結果を実務に持ち込む際の落とし穴を3つ挙げます。

第一の誤解は、ベンチマークが高いモデルなら自社の業務でも正確だろう、というものです。ベンチマークは数学やプログラミングなど汎用的な問題での成績で、あなたの会社の業界用語や社内ルールは測定範囲外です。知能指数53のモデルでも、事実と違う内容をもっともらしく書く現象（ハルシネーションと呼ばれます）は起きます。**金額、日付、固有名詞、法令の条文番号は、モデルの順位に関係なく必ず人が原本と突き合わせてください。**この確認を業務フローに最初から組み込んでおけば、AIの間違いは事故ではなく想定内の検品作業になります。

第二の誤解は、費用に関するものです。入力3ドルという単価は安く見えますが、前述のとおりSonnet 5は出力が長めの性格で、課金は出力側が15ドルと5倍です。API経由で大量に回す場合、想定より請求が膨らむことがあります。個人や小規模チームは、従量課金のAPIではなく月額定額のプラン（無料〜数千円）から始めるのが安全です。また、じっくり考える推論モード（答える前に検討の手順を踏む設定）を最大にすると、Artificial Analysisの計測では最初の文字が出るまで2分以上かかっています。急ぎの下書きには通常モード、複雑な分析には推論モード、という使い分けを覚えておくと待ち時間の不満がなくなります。

第三は機密情報の扱いです。顧客名簿や給与データを渡す前に、勤務先のAI利用ルールを確認してください。ルールがまだない会社こそ、渡してよい資料の線引きを先に決めることが、結果的に活用を加速させます。目安としては、社外に出しても困らない公開情報と社内マニュアルは可、個人名や口座番号を含むデータは匿名化してから、というシンプルな2段階から始めれば十分です。禁止から入った会社は現場が隠れて使い始め、線引きから入った会社は堂々と使って改善が回る。この差は半年で歴然と出ます。

まとめ：賢さは足りた。次は任せ方です

Claude Sonnet 5のベンチマーク結果を整理すると、標準グレードのモデルが知能スコア53で世界5位に入り、A4約1,500ページ分の資料を一度に読めるようになった、ということになります。日常業務に必要な賢さは、もう標準グレードで足りています。

だからこそ、これからの差は、どのモデルを使うかではなく、どの業務をどう渡すかで生まれます。請求書の山、就業規則の束、自由回答2,000件。あなたの会社にも、フォルダごと渡せば動き出す仕事が眠っているはずです。まず1つ、今週中に試してみてください。ベンチマークの数字は、その一歩を後押しする材料として使えば十分です。

どの業務から渡すべきか自社だけでは決めきれない場合は、Claude Worksの無料30分相談で、あなたの業種と業務内容に合わせた最初の一手を一緒に整理します。無料30分相談はこちらからお申し込みください。

Claude Sonnet 5の実力を数字で読む

新しいClaudeの標準モデルが出ました

何が起きたか：162モデル中5位という結果

数字の読み方：順位より「自分の基準を超えたか」

非エンジニアにとっての本当のニュースは1,500ページです

業種別の活用シナリオ：経理・社労士・マーケ会社

そのまま使える実践手順：今日から5ステップ

注意点とよくある誤解

まとめ：賢さは足りた。次は任せ方です

こちらも読まれています

Claude Opus 4.7 リリース｜何が変わった？非エンジニアが知っておくべき5つの進化とベンチマーク全解説

Claude Sonnet 完全ガイド｜非エンジニアのための中堅モデル徹底解説 2026年4月版

Claude 3.5 Sonnet とは｜2026年に検索した非エンジニアのための、今選ぶべきモデルへの道案内

Claude Sonnet 4.5 とは｜2026年4月に検索した非エンジニアのための、今選ぶべきモデルの答え

週2通のメールマガジン