Episodes

  • 株式会社ずんだもん技術室AI放送局 podcast 20250625
    Jun 24 2025
    関連リンク Claude Codeとplaywright mcpを連携させると開発体験が向上するのでみんなやろう この記事では、AI開発ツール「Claude Code」と、ブラウザ操作を自動化する「Playwright MCP」を連携させることで、開発効率が大きく向上するという実践的な方法が紹介されています。 Playwright MCPは、Webブラウザ(Chromeなど)をプログラムから操作するためのツール「Playwright」を、AIアシスタントから利用できるようにしたものです。この連携の最大のメリットは、Claude Codeが生成したコードが実際に動作するかを、その場でブラウザを使って自動的に確認できるようになる点にあります。 これまでのAI開発では、「Claude Codeが『できました!』と言うけれど、実際に動かしてみるとエラーだらけで全然動かない…」という経験が少なくありませんでした。しかし、Playwright MCPと連携させることで、Claude Codeがコードを生成した後、すぐにPlaywright MCPを使ってそのコードをブラウザで実行し、期待通りに動くか確認できるようになります。これにより、開発者がコードを試す前にAIが自己デバッグを行うようになるため、「想像でコードを書く→動かない→修正」という非効率なループから抜け出し、「想像でコードを書く→ブラウザで試す→動くことを確認してから提出」という、よりスムーズで信頼性の高い開発フローを実現できます。特に、WebページのUI(ユーザーインターフェース)の動作確認など、AIが苦手としがちなタスクでの効果が期待できます。 この連携を実現するには、Claude Codeの設定ファイルにPlaywright MCPを認識させるための記述を追加する必要があります。具体的には、~/.claude.jsonや専用の設定ファイルに、Playwright MCPの実行コマンドやブラウザの起動オプションなどを設定します。また、Claude Codeに「Playwright MCPツールだけを使ってブラウザ操作を行うこと」「エラーが発生したらすぐに報告すること」といったルールを明確に指示するために、CLAUDE.mdというファイルに専用のガイドラインを追記することが推奨されています。これにより、AIが余計なコード実行を試みることなく、意図した通りのブラウザ操作に集中するようになります。 このように、Claude CodeとPlaywright MCPを連携させることで、AIを活用した開発の信頼性と効率性を飛躍的に高めることができ、新人エンジニアの方々も安心してAIと一緒に開発を進められるようになるでしょう。 引用元: https://zenn.dev/sesere/articles/4c0b55102dcc84 FilMaster: Bridging Cinematic Principles and Generative AI for Automated Film Generation この研究論文「FilMaster」は、AIを使って本格的な映画を自動で作り出す新しいシステムについて紹介しています。これまで、AIが作る映像は「映画らしさ」が足りず、カメラワークや映像と音のテンポ(映画的なリズム)が単調になりがちでした。これは、プロの映画制作で重要とされる「映画制作の原則」が十分に反映されていなかったためです。 FilMasterは、この課題を解決するために開発されました。このシステムは、以下の2つの主要な考え方に基づいて作られています。 実際の映画から「映画らしさ」を学ぶ: 膨大な量の映画データから、プロが使うカメラワークや演出のノウハウをAIに学習させます。観客目線で「編集作業」を再現する: 映画制作における撮影後の編集(ポストプロダクション)プロセスを、観客がどう感じるかを重視してAIが行うように設計されています。 FilMasterの映像生成プロセスは、大きく2つの段階に分かれています。 1. 参照ガイド付き生成ステージ: ユーザーが入力した内容(例えば「こんなシーンを作りたい」という指示)をもとに、AIが実際のビデオクリップを生成します。この段階では、44万もの映画クリップのデータベースを参照し、そこから最適な「お手本」を探し出して、プロのようなカメラの動きやアングル(カメラ言語)を持つ映像を作り出すのが特徴です。まるで、優秀なアシスタントが過去の名作からヒントを得て映像のアイデアを出してくれるようなイメージです。 2. 生成ポストプロダクションステージ: 生成された「生の映像素材」を、さらに映画らしく編集する段階です。ここでは、...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20250624
    Jun 23 2025
    関連リンク AI Agent Manager (AAM) として生きていく : 作業環境とワークフローの設計 この記事は、AI Agent(AIアシスタント)が開発現場の主役になる未来を見据え、人間のエンジニアが「AI Agent Manager (AAM)」という新しい役割を担う可能性について解説しています。これは、まるで人間の上司が部下をマネジメントするように、AI Agentを管理する仕事が中心になる、という考え方です。 AAMの仕事は、従来のエンジニアが直接コードを書くこととは少し違います。AI Agentが効率的に開発を進められるように、以下のような管理業務が主な役割になります。 AI Agentに仕事の目的を伝えるプロジェクトやタスクの背景など、必要な情報を丁寧に教えてオンボーディングするAI Agentの進捗を管理する計画や成果物を評価する作業プロセスを改善するためのPDCAサイクルを回す この記事では、AAMとして特に重要な「働く環境の整備」と「ワークフローの設計」という2つのノウハウが共有されています。 1. AI Agentが働く環境の整備 AI Agentの主な作業場所はGitリポジトリになります。人間はリポジトリ外の情報(デザインツールやチャットなど)から多くのヒントを得ますが、AI Agentはそうではありません。そのため、AI Agentに必要な情報を漏れなく与える「コンテキストの付与」が非常に大切です。これには、リポジトリ内にルールやガイドラインをまとめたファイル(例:CLAUDE.md)を置いたり、タスク固有のメモをリポジトリから除外されるフォルダに保存したり、さらに外部の情報源にアクセスできる「MCP Server」と呼ばれる仕組みを充実させたりする方法があります。特に、会社やチーム全体でルールを統一し、AI Agentがどこでも効率的に働けるようにMCP Serverを拡充することが重要だと述べられています。 2. AI Agentのワークフロー設計 AI Agentに仕事をさせるための「手順」を設計することもAAMの重要な仕事です。記事では、リポジトリの初期設定から、タスクの立ち上げ、必要な情報の読み込み、実装方針の検討、依存関係の学習、実際のコード実装、テスト、そして作業の振り返りまで、具体的な8つのステップが提案されています。それぞれのステップで、AI Agentに適切な指示(プロンプト)を与えることが求められます。特に、AI Agentに「カスタムコマンド」としてこれらの指示を登録し、決まった手順で実行させることで、効率的に作業が進むようになります。AI Agentが意図しない動きをした場合は、振り返りを通じてプロンプトやルールを改善していくことが大切です。 将来的に、AAMにはAI Agentの能力を最大限に引き出し、開発の生産性を向上させるスキルが求められます。具体的には、複数のAI Agentが同時に作業できる環境を整えたり、新しいAgentでもすぐに仕事に取りかかれるように準備したり、AI Agentが常に必要な情報を得られるようにしたり、開発コストを最適化したりする能力です。また、AI Agentが正しいコードを書き、質の高いレビューができるように、コマンド設計やワークフローの改善、さらにはAIモデル自体の性能を高める「チューニング」に関する知識も重要になると提言されています。 この記事は、AI Agentが開発の中心となる未来において、エンジニアがどのように活躍し、自身のスキルを磨いていくべきか、新しい視点を提供してくれるでしょう。 引用元: https://qiita.com/icoxfog417/items/f15e92f05b14411fd642 LiteLLMを使ったLLMの集約 & 簡易的なKey管理 + langfuse添え LLM(大規模言語モデル)の利用が広がる中で、OpenAIやClaude、Azure OpenAIなど様々なプロバイダーのLLMを使うと、それぞれAPIの形式が異なったり、APIキーの管理が複雑になったりして困ることがあります。この記事では、こうした課題を解決する「LiteLLM」というツールと、その便利な機能について、新人エンジニアの方にも分かりやすく解説します。 LiteLLMとは? LiteLLMは、複数のLLMプロバイダーへのアクセスを「統一された窓口」として提供するオープンソースのソフトウェアです。これを「LiteLLM Proxy Server」として動かすことで、異なるLLMのAPI形式の違いを意識することなく、OpenAIと同じような形式でリクエストを送れるようになります。...
    Show more Show less
    Less than 1 minute
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20250623
    Jun 22 2025
    関連リンク GitHub Copilotの「Agent mode」が正式リリース、MCPはプレビュー版提供開始 「GitHub Copilot」というAIアシスタントが、エンジニアの開発作業を強力にサポートする新機能「Agent mode(エージェントモード)」を正式にリリースしました。さらに、AIがさまざまな外部ツールと連携するための新しい技術「Model Context Protocol(モデルコンテキストプロトコル、略してMCP)」のプレビュー版も提供が開始されています。 GitHub Copilot「Agent mode」とは? これまでのGitHub Copilotは、皆さんがコードを書くときに「Ask mode」として、質問に基づいてコードの候補を提案する機能が中心でした。しかし、今回正式リリースされた「Agent mode」は、さらに進化したAIのサポートを提供します。 Agent modeでは、「この機能を追加してほしい」「このバグを修正してほしい」といった、より大きな開発タスクをCopilotに指示できます。すると、Copilot自身がそのタスクをどう進めるか計画を立て、コードの解析や編集、コマンドの実行、エラーへの対応、自己修正といった一連の作業を自動で繰り返しながら、タスクを最初から最後まで自律的に処理してくれます。まるで、AIがあなたの隣でペアプログラミングをしてくれるようなイメージです。 もちろん、AIが勝手にすべてを進めるわけではありません。皆さんは、AIが進めている作業内容を途中で確認したり、必要であれば内容を編集したり、作業を元に戻したりと、AIの進行をコントロールすることが可能です。これにより、開発者はより複雑なタスクをAIに任せつつ、最終的な品質を自身で管理できるようになります。 「Model Context Protocol(MCP)」とは? 現在プレビュー版が提供されているMCPは、AIエージェントが、さまざまな外部ツールやサービスと標準的な方法で連携できるように設計された技術です。 将来的には、データベース、CI/CD(継続的インテグレーション/継続的デリバリー)、モニタリングシステムなど、開発で使う多種多様なツールとAIがスムーズに連携できるようになることが期待されています。これにより、開発環境がさらに強化され、AIがより広範囲な作業を自動でこなせるようになる可能性があります。MCPはオープンソースとして公開され、Visual Studioなどの開発ツールでmcp.jsonファイルを使って設定することができます。 その他の便利なアップデート 今回のアップデートでは、他にもいくつかの機能が追加されました。AIへの指示(プロンプト)をファイルとして保存し、再利用したりチームで共有したりできるようになりました。また、より高性能なAIモデルである「Gemini 2.5 Pro」や「GPT-4.1」にも対応し、より賢いコード提案やタスク処理が期待できます。さらに、AIの出力結果を確認しやすくなる「出力ウィンドウ参照機能」も追加され、使い勝手が向上しています。 これらの新しい機能は、GitHub Copilotが単なるコード補完ツールから、開発プロセス全体を支援する強力なAIアシスタントへと進化していることを示しています。新人エンジニアの皆さんも、これらのAIツールを上手に活用することで、日々の開発作業をより効率的に、そしてより楽しく進めることができるでしょう。 引用元: https://codezine.jp/article/detail/21768 データ分析領域へのLLM導入動向(各分析ソリューション会社の動き) データ分析の分野で、AI、特に「大規模言語モデル(LLM)」の導入が急速に進んでいます。これにより、これまで専門家だけが行っていたデータ分析が、より多くの人が手軽に、そして効率的にできるようになりつつあります。データ分析はどんな企業でも非常に重要で、市場規模も大きいため、GoogleやAmazonといった大手テクノロジー企業もこぞってLLMを使った新しいデータ分析ソリューションの開発に力を入れています。 最近の大きなトレンドの一つが、自然な日本語の質問から、データベースを操作するための専門言語である「SQL」のコードを自動で生成する「Text-to-SQL」という技術です。これにより、プログラミングの知識がないビジネス担当者でも、「先月ニューヨーク市のクリニックを訪れた糖尿病患者数は?」といった具体的な質問...
    Show more Show less
    Less than 1 minute
  • 私立ずんだもん女学園放送部 podcast 20250620
    Jun 19 2025
    関連リンク AI system development: LLM → RAG → AI Workflow → AI Agent CodeLink この記事では、AIシステム開発が「LLM」から始まり、「RAG」「AI Workflow」を経て、最終的に「AI Agent」へと段階的に進化していく過程を、新人エンジニアにも分かりやすく解説しています。すべてのAIシステムに高度なAI Agentが必要なわけではなく、解決したい問題に合わせて適切な技術を選ぶことが重要だと述べられています。 まず、Pure LLM(純粋なLLM)は、インターネット上の膨大な情報を学習した知識の塊です。小説の要約や文章作成など、学習データ内の情報を使うタスクは得意ですが、リアルタイムの情報取得や外部ツールとの連携はできません。しかし、プロンプトの工夫(in-context learningなど)で、ある程度の問題解決が可能です。例えば、レジュメが職務要件に合うかを分類するような単純なタスクなら、LLM単体でも対応できます。 次に、RAG (Retrieval Augmented Generation)は、LLMに外部の関連情報を与えることで、より正確で最新の回答を生成させる手法です。これにより、LLMは企業の内部データや最新のリアルタイム情報も活用できるようになります。レジュメスクリーニングの例では、社内の技術マニュアルや過去のレジュメを参考にして、より適切な判断ができるようになります。この際、ベクトルデータベースやセマンティック検索といった技術が使われます。 さらに進んだ段階が、Tool Use & AI Workflow(ツール利用とAIワークフロー)です。これは、LLMが電卓やメールサービス、検索エンジンといった外部ツール(API)と連携し、定められた手順に沿ってビジネスプロセスを自動化する仕組みです。定型的なタスク、例えばレジュメの取得、内容評価、そして合否通知メールの送信といった一連の流れを自動化できます。LLMはデータベースやメールAPI、カレンダーAPIなどにアクセスして、プログラムされた手順を実行します。 そして、最も進化した形がAI Agent(AIエージェント)です。AIエージェントは、タスクを自律的に分解し、必要なツールを判断して使い、結果を評価し、次に何をすべきかを自分で決められるシステムです。AIワークフローが決められた手順をなぞるのに対し、AIエージェントは自分で計画を立て、状況に応じて動的に手順を決定・実行します。採用プロセス全体(CV解析、面接調整、スケジュール変更対応など)を、人間がほとんど介入せずに自動で管理するような複雑なタスクをこなすことができます。 この記事の重要なポイントは二つです。一つは、「すべてのシステムにAIエージェントが必要なわけではない」ということ。シンプルな構成から始め、必要に応じて複雑な機能を追加していくのが賢明です。もう一つは、「機能よりも信頼性を重視すべき」という点。LLMは非決定的な性質があるため、本番環境で安定稼働させるには、綿密なテストと安全対策(ガードレール)が不可欠です。新人エンジニアの皆さんも、この段階的な進化と重要ポイントを理解して、AIシステム開発に取り組んでいきましょう。 引用元: https://www.codelink.io/blog/post/ai-system-development-llm-rag-ai-workflow-agent How Early Access to NVIDIA GB200 Systems Helped LMArena Build a Model to Evaluate LLMs こんにちは、新人エンジニアの皆さん! 今回ご紹介する記事は、私たちが普段利用する大規模言語モデル(LLM)の「どれが、どんなタスクに一番得意なのか」を賢く評価する新しいシステムと、その裏側にある最新技術のお話です。 カリフォルニア大学バークレー校のLMArenaが開発した「P2L(Prompt-to-Leaderboard)」モデルは、LLMの得意分野を見極めるための画期的なツールです。これまでのLLM評価は総合スコアで示されることが多かったのですが、P2Lは「数学ならこのモデル、プログラミングならあのモデル」といったように、特定のタスク(例えば、数学、コーディング、創造的ライティングなど)ごとに、どのLLMが優れているかを人間の評価(投票)を基に判断します。これにより、単一のランキングでは見えにくいLLMごとの「個性」や「得意技」がはっきり分かるようになります。さらに、予算に応じて最適なモデルを自動で選ぶ「...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20250619
    Jun 18 2025
    関連リンク 【Claude Code Tips】私のマイCLAUDE.mdを解説します この記事では、ターミナルで動作するAIコーディングツール「Claude Code」をより効果的に使うための設定ファイル「CLAUDE.md」について、具体的な設定例を交えながら解説されています。新人エンジニアの方も、AIを活用した開発のヒントとして役立つでしょう。 CLAUDE.mdは、Claude Codeにプロジェクト固有の知識を覚えさせる「メモリ機能」です。これにプロジェクトの設計やコーディングルール、作業の流れなどを記述することで、AIが生成するコードの質を上げることができます。たくさん書きすぎるとAIが内容を無視してしまうことがあるため、必要な情報を簡潔にまとめることが大切です。英語で書く方がAIが処理しやすい(トークン量を抑えられる)側面もありますが、筆者は保守性を考慮して日本語で書くことも問題ないとしています。 筆者のCLAUDE.mdには、開発中のSNSアプリ「Gotoshisha」の具体的な情報が記述されています。 プロジェクト概要: アプリの目的や主な機能。技術スタック: 利用しているプログラミング言語、フレームワーク、クラウドサービスなど。プロジェクト構造: ディレクトリの構成。開発ワークフロー: 環境構築や開発開始の手順。テストガイドラインとコード生成規約: テストの書き方(Vitestを使い、テストコードを実装ファイルと同じ場所に書く、日本語でテスト説明を書くなど)や、コードの書き方のルール(コメントの付け方、ハードコードを避けるなど)。 特に注目すべきは、テストガイドラインの重要性です。AIにコードを生成させる際、テスト駆動開発(先にテストを書き、それに合わせてコードを開発する手法)と組み合わせることで、AIが作ったコードが正しく動くかを確認しやすくなり、スムーズに開発を進められると筆者は強調しています。 また、Claude Codeが実行できるコマンドを細かく設定する.claude/settings.jsonファイルについても紹介されています。このファイルで、AIに自動で許可するコマンド(allowリスト)と、絶対に禁止するコマンド(denyリスト)を設定することで、安全にAIと協力して開発を進めることができます。 まとめると、CLAUDE.mdにプロジェクトの情報を詳しく、かつ簡潔に記述し、特にテスト駆動開発と組み合わせることで、Claude Codeの能力を最大限に引き出し、効率的で品質の高い開発ができるという点がこの記事の大きな学びです。 引用元: https://zenn.dev/dirtyman/articles/ddbec05fd9fbb4 Benchmarking LLM Inference Costs for Smarter Scaling and Deployment この記事は、大規模言語モデル(LLM)の運用にかかるコスト(推論コスト)を効率的に見積もり、賢くシステムを拡張・展開するための方法を、新人エンジニアにも分かりやすく解説しています。LLMが様々なアプリケーションの基盤となる中で、システムを大規模に運用する際には、どれくらいのインフラが必要で、総費用(TCO: Total Cost of Ownership)がどれくらいになるかを事前に把握することが非常に重要になります。 このブログ記事では、主に以下の3つのステップを通じて、LLMの推論コストを計算する流れを説明しています。 パフォーマンスベンチマークの実施: まず、LLMを動かすサーバーが、どれくらいの速さでどれだけの処理量(スループット)をこなせるのか、そして応答にどれくらいの時間(レイテンシ)がかかるのかを測定します。これは、必要なハードウェアの規模を決めるための土台となります。NVIDIAの「GenAI-Perf」のようなツールを使うと、「最初の単語が出るまでの時間(TTFT)」や「1秒あたりのリクエスト数(RPS)」といった主要な性能指標を測ることができます。これは、チャットボットのようにリアルタイム性が求められるシステムでは特に重要です。 ベンチマークデータの分析と最適な構成の特定: 測定したデータから、システムが最高の性能を発揮できるバランス点を見つけます。一般的に、多くのリクエストを同時に処理しようとするとスループットは上がりますが、個々の応答にかかる時間は長くなる傾向があります(レイテンシが増える)。このトレードオフを理解し、例えば「応答時間は250ミリ...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20250618
    Jun 17 2025
    関連リンク Building Effective AI Agents Anthropicは、LLM(大規模言語モデル)エージェント構築の経験から、効果的なAIエージェントを作るためのヒントを共有しています。多くの成功事例では、複雑なフレームワークよりも、シンプルで組み合わせやすいパターンが使われていることが分かりました。 エージェント的システムとは 「エージェント」には様々な定義がありますが、AnthropicではLLMとツールを組み合わせたシステム全体を「Agentic systems(エージェント的システム)」と呼んでいます。その中で、特に重要な2つのタイプを区別しています。 Workflows(ワークフロー): 事前に決められた手順(コードパス)に沿ってLLMとツールを動かすシステムです。Agents(エージェント): LLM自身がタスクの進め方やツールの使い方を、状況に応じて動的に判断し、制御するシステムです。 エージェントを使うべきケースとそうでないケース LLMアプリケーションを作る際は、まず最もシンプルな方法から試し、本当に必要になった場合にだけ複雑なシステムを導入することが推奨されます。エージェント的システムは、より良いタスク性能を目指す一方で、処理が遅くなったり、コストがかさんだりするトレードオフがあるため、そのバランスを考える必要があります。 ワークフローは、手順が明確で、予測可能で安定した動作が必要なタスクに適しています。エージェントは、タスクが複雑で、柔軟性やLLM自身が判断を下す能力が大規模に求められる場合に有効です。 しかし、多くのケースでは、LLMへの一度の問い合わせを最適化するだけで十分な結果が得られることもあります。 フレームワークの活用について LangGraphやAmazon BedrockのAI Agentフレームワークなど、エージェントシステムの開発を助けるツールが多数存在します。これらは、LLMの呼び出しやツールの定義、処理の連携といった基本的な作業を簡単にしてくれます。 一方で、フレームワークを使うと、抽象化の層が増えることで、内部のプロンプトやLLMの応答が見えにくくなり、デバッグが難しくなることがあります。また、シンプルな方法で済む場合でも、不必要に複雑なシステムを作り上げてしまう誘惑に駆られることもあります。 Anthropicは、まずLLMのAPIを直接使ってみることを推奨しています。多くのパターンは簡単なコードで実現できます。もしフレームワークを使う場合は、その内部の仕組みをしっかりと理解しておくことが重要です。 まとめと開発の原則 LLMを使った開発において最も大切なのは、凝ったシステムを作ることではなく、自分のニーズに「最適なシステム」を構築することです。まずはシンプルなプロンプトから始め、性能を評価しながら改善を進め、もしシンプルな解決策では対応できない場合にのみ、より複雑な多段階エージェントシステムを導入しましょう。 エージェントを開発する際には、以下の3つの重要な原則を意識することが推奨されています。 シンプルさ: エージェントの設計は、できるだけ簡潔に保つことが成功の鍵です。透明性: エージェントが次に何をしようとしているか、その計画のプロセスを明確に示せるようにしましょう。注意深いACI (Agent-Computer Interface) 設計: エージェントが使うツールの使い方や役割を丁寧に文書化し、入念にテストすることで、エージェントとコンピューターの間の連携を最適化しましょう。 フレームワークは開発のスタートを加速させますが、システムを本番環境で運用する際には、抽象化を減らして、基本的なコンポーネントで構築することも検討してください。これらの原則に従うことで、強力であると同時に信頼性が高く、メンテナンスしやすいエージェントを作り出すことができるでしょう。 引用元: https://www.anthropic.com/engineering/building-effective-agents How to think about agent frameworks AIの進化により「AIエージェント」が注目されていますが、実用的なエージェントシステムを開発するのは簡単ではありません。この記事では、信頼性の高いエージェントを構築するための考え方と、フレームワークの選び方について解説しています。 1. AIエージェントと...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20250617
    Jun 16 2025
    関連リンク Metas Llama 3.1 can recall 42 percent of the first Harry Potter book AIモデルの著作権侵害訴訟が増える中、Meta社の主要LLMであるLlama 3.1の「記憶」能力に関する興味深い研究が注目されています。これは「AIモデルが元の学習データをそのまま出力してしまうことがあるのか?」という問題に深く関わっています。 スタンフォード大学などの研究チームが、Llama 3.1 70Bモデルを含むいくつかのモデルを調査したところ、驚くべき結果が発表されました。研究によると、Llama 3.1 70Bは『ハリー・ポッターと賢者の石』の最初の本のおよそ42%を、元の文章そのままに再現する能力があることが分かりました。これは、モデルが書籍の内容を高い精度で「記憶」していることを示唆しています。Llama 1 65Bが同じ本をわずか4.4%しか記憶していなかったのと比較すると、Llama 3.1ではその記憶能力が大幅に向上しています。また、人気のある書籍(例:『ホビット』や『1984年』など)ほど、Llama 3.1が内容を記憶している傾向があることも分かりました。 では、どのようにモデルの記憶能力を測ったのでしょうか?研究者たちは、モデルが次にどのような「単語の断片」(トークン)を生成するか、その確率を計算する手法を用いました。この確率を繋ぎ合わせることで、50個のトークンが特定の文章とどれくらい一致するかを、実際にモデルに生成させずに推定することが可能になりました。これにより、非常に少ない確率でしか出ないような特定の文章も効率的に分析できるようになりました。 この研究結果は、著作権訴訟に大きな影響を与える可能性があります。AI企業はこれまで「モデルは単に言葉のパターンを学習するだけで、元のデータをコピーするわけではない」と主張してきましたが、Llama 3.1が書籍の大部分を再現できる事実は、この主張を困難にします。特に、「フェアユース」(公正利用)という著作権の考え方にも影響が出そうです。Google Booksの事例では、書籍からごく一部しか出力しない点がフェアユースと認められましたが、Llama 3.1はより多くの部分を再現できるため、議論が複雑化します。 さらに、Llamaのようにモデルの内部構造(重み)を公開している「オープンウェイトモデル」が、そうでない「クローズドウェイトモデル」に比べて、法的に不利になる可能性も指摘されています。オープンウェイトモデルでは、今回の研究のように内部の挙動を詳しく分析できるため、著作権侵害の証拠が見つかりやすいためです。これはAI開発のオープンな共有を阻害する可能性があり、今後の業界動向に注目が集まります。この研究は、AI技術の発展と著作権保護のバランスについて、重要な示唆を与えています。 引用元: https://www.understandingai.org/p/metas-llama-31-can-recall-42-percent プライドも、サンクコストも捨てろ「健康診断」しないエンジニアは死滅する - エンジニアtype 転職type VR開発者であるナル先生こと近藤義仁氏が、AIの発展がエンジニアのキャリアにどう影響するかについて語っています。 AI時代において、ソフトウェアエンジニアの仕事が完全になくなるわけではありませんが、その役割は大きく変化するとナル先生は指摘します。特にAIを導入しにくい一部の業界では人間エンジニアが残り、Web系の分野ではAIによる代替が進むでしょう。AIの能力は急速に進化しており、かつてのような「職人気質」でプライドが高く、人間関係が難しいタイプのエンジニアは、AIの圧倒的なスピードと人間的な特性を兼ね備えた人材に取って代わられる可能性があります。 この変化の時代を生き抜くために最も重要なのは、「プライド」や「これまでの投資(サンクコスト)」を捨てて、新しい技術、特にAIを常に学び続ける姿勢だとナル先生は強調します。AIの進化は非常に速く、数年前の常識はあっという間に通用しなくなるため、毎日AIの最新ツールや機能を触り、その動向をチェックする「技術的な健康診断」が不可欠です。ナル先生自身も、朝4時に起きてX(旧Twitter)でAI情報を収集・発信し、将来的には自身のXログを学習させたローカルLLMを動かすことで「自分年金」を構築する計画を語...
    Show more Show less
    Less than 1 minute
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20250616
    Jun 15 2025
    関連リンク Anthropic「How we built our multi-agent research system」の要点まとめ Anthropicが、AIの「マルチエージェントシステム」をどう作ったか、その開発の裏側と重要な知見を公開しました。これは、AIアシスタント「Claude」の調査機能(Research機能)を開発する中で得られた貴重な学びです。 AnthropicのResearch機能は、「オーケストレーター・ワーカーパターン」という仕組みを使っています。これは、一人の「リーダーエージェント」がユーザーの質問を受け、それをいくつかの小さなタスクに分解します。分解されたタスクは、複数の「サブエージェント」(リサーチャーエージェント)に指示され、それぞれが並行して調査を行います。最後に、リーダーエージェントが各サブエージェントの結果を統合し、最終的な回答を作成するという流れです。まるで、プロジェクトリーダーが専門チームに仕事を割り振り、最後にまとめて報告書を作るようなイメージです。 このマルチエージェントシステムは、得意なことと苦手なことがあります。得意なのは、たくさんの調査を同時に進める「並列処理」や、大量の情報を扱うタスク、複数のツールを使う作業です。実際に、シングルエージェント(一人のAI)よりも高い調査性能を発揮しました。一方、苦手なのは、プログラミングのように並列化しにくい作業や、全員で同じ情報を共有しながら進める必要がある作業です。このシステムの性能を大きく左右するのは、AIがどれだけ「思考」(=トークン)を使うか、つまりどれだけ深く考える時間を与えられるかです。しかし、大量のトークンを使うため、コストが高くなる点が大きな課題です。最新のモデルに切り替えることで、効率を上げつつコストを最適化できると報告されています。 開発では、AIへの指示文である「プロンプトエンジニアリング」が非常に重要でした。Anthropicは、以下の8つのコツを見つけました。 AIの思考をシミュレーションする: AIが指示をどう解釈し、行動するか想像する。リーダーエージェントに仕事の振り方を教える: サブエージェントへ目的、形式、ツール、担当範囲を具体的に指示させる。タスクの規模に応じた人員配置: 簡単な質問には少ないAI、複雑な調査には多くのAIを割り当てる。ツールの設計と選択: 適切なツールを選ばせ、その使い方を明確に説明する。エージェントに自己改善させる: AI自身に失敗の原因を診断させ、プロンプトを改善させる。広く始めてから絞り込む: まず全体像を掴み、徐々に詳細を調べるように指示する。AIに思考する時間を与える: 作業前に戦略を練ったり、結果が出るたびに立ち止まって考えさせたりする。並列処理で高速化: 複数のサブエージェントやツールを同時に動かすことで、調査時間を大幅に短縮する。 これらの戦略は、厳格なルールではなく、経験からくる良い「やり方」をAIに教え込み、同時に「これはしてはいけない」というガードレールを設定することで実現しました。 AIシステムの効果的な評価方法についても紹介されています。 小規模でもすぐに始める: 最初から完璧な評価システムを目指すのではなく、少数のテストケースでも効果は大きい。LLM-as-judgeを活用する: 生成された回答の正確性や網羅性などを、別のLLM(大規模言語モデル)に評価させる。人間による評価も不可欠: 自動評価では見落としがちな、AIの不自然な挙動や誤りを人間が見つけ、改善につなげる。 マルチエージェントシステムは複雑ですが、適切に設計・運用することで、人間だけでは難しい大規模な調査や分析を可能にする強力なツールとなることが示されています。 引用元: https://zenn.dev/ml_bear/articles/a5dc93b9d03edd Claude CodeとGitHub Issueを使った全自動開発について この記事は、最新のAI技術であるClaude Codeと、ソフトウェア開発で広く使われるGitHub Issueを連携させ、開発プロセスを「全自動化」するコンセプトと、それを実現するためのスクリプトについて紹介しています。これは、AIが自律的にソフトウェア開発のタスクをこなし、まるで一人のエンジニアのようにプロジェクトを進める未来の働き方を垣間見せてくれるものです...
    Show more Show less
    Less than 1 minute
adbl_web_global_use_to_activate_webcro805_stickypopup