Episodes

  • 私立ずんだもん女学園放送部 podcast 20250307
    Mar 6 2025
    関連リンク
    • Peak Performance, Minimized Memory: Optimizing torchtune’s performance with torch.compile & Liger Kernel

    PyTorchのLLM fine-tuningライブラリtorchtuneを、torch.compileとLiger Kernelで高速化する手法を紹介。Liger Kernelはメモリ効率に優れたTritonカーネル集。torchtuneのTransformerDecoderを修正し、Liger KernelのFLCE Lossを使うことで、メモリ使用量を削減しつつ性能向上。A100 GPUでの実験で、torch.compileがPyTorch Eagerより高速で、Liger Kernel導入でメモリがさらに削減。batch size 256でピークメモリ47%削減。

    引用元: https://pytorch.org/blog/peak-performance-minimized-memory/

    • Mistral OCR Mistral AI

    Mistral AIが新しいOCR API「Mistral OCR」を発表しました。これは、画像やPDFからテキスト、画像、表、数式などを高精度に抽出できるツールです。特に複雑なドキュメントの理解に優れており、多言語対応、高速処理、構造化された出力が可能です。研究機関での科学論文のデジタル化、文化遺産の保存、顧客サービスの効率化など、様々な分野での応用が期待されています。APIはすでに利用可能で、試用もできます。

    引用元: https://mistral.ai/fr/news/mistral-ocr

    • Evaluate RAG responses with Amazon Bedrock, LlamaIndex and RAGAS Amazon Web Services

    RAG(Retrieval Augmented Generation)モデルの性能評価に、Amazon Bedrock、LlamaIndex、RAGASというツールを組み合わせる方法を紹介。RAGは、組織内のデータを利用してAIの応答精度を向上させる技術。記事では、RAGASとLlamaIndexを使って、検索と生成の両方の品質を評価し、改善点を見つける方法を解説。Bedrockの高性能な基盤モデルを活用し、LangChainと連携してサンプルRAGアプリケーションを構築。評価データセットを作成し、Faithfulness(忠実さ)、Answer Relevancy(回答の関連性)、Answer Correctness(回答の正確さ)などの指標でモデルを評価。LlamaIndexも同様に評価に利用可能。これらのツールを使うことで、AIの応答をより正確で組織のニーズに合ったものに改善できる。

    引用元: https://aws.amazon.com/blogs/machine-learning/evaluate-rag-responses-with-amazon-bedrock-llamaindex-and-ragas/

    • 松屋のメニュー「日曜遅めに起きて冷蔵庫にあんまり物が入ってないことを思い出したけど買い物もめんどくさい独身丼」が話題に→社長も反応

    松屋の「とろっとたまごソーセージ丼」について、あるユーザーが「日曜遅めに起きて冷蔵庫にあんまり物が入ってないこと思い出したけど買い物もめんどくさい独身丼」というネーミングを提案し話題になっています。SNSでは「おいしそう」「懐かしい味」といったコメントとともに、松屋の社長も反応しています。

    引用元: https://togetter.com/li/2521593

    • お便り投稿フォーム

    VOICEVOX:ずんだもん

    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20250306
    Mar 5 2025
    関連リンク
    • How Build.inc used LangGraph to launch a Multi-Agent Architecture for automating critical CRE workflows for Data Center Development.

    Build.inc社が、LangGraphを活用し、商用不動産(CRE)におけるデータセンター開発の重要なワークフローを自動化するマルチエージェントアーキテクチャを構築した事例を紹介。25以上のサブエージェントからなる複雑なシステム「Dougie」は、これまで4週間かかっていた土地調査を75分で完了させる。 複雑性と可変性、データの断片化、専門知識の必要性から、従来のソフトウェアでは難しかった自動化を、エージェントファーストのアプローチで解決。複数の専門エージェントが連携し、タスクを分割・実行することで、効率化を実現している。 LangGraphによる非同期実行で並列処理を行い、大幅な時間短縮。エージェントをタスクに合わせて最適化し、単純化することで、より正確でモジュール化されたシステムを構築。不動産開発における反復的で複雑なワークフローを自動化し、時間とコストを削減、より戦略的な業務への集中を可能にする。

    引用元: https://blog.langchain.dev/how-build-inc-used-langgraph-to-launch-a-multi-agent-architecture-for-automating-critical-cre-workflows-for-data-center-development/

    • 「Gemini」、メモリー機能を全ユーザーに開放–有料ユーザー向けの新機能も

    GoogleのAI「Gemini」がアップデート。以前は有料版限定だったユーザーの好みなどを記憶する機能が、全ユーザーに開放されました。これにより、名前やプロジェクトなどの情報を毎回入力する手間が省け、より関連性の高い回答が得られます。また、有料版ユーザー向けには、スマホの画面やカメラを通してGeminiが周囲の状況を認識し、質問に答えられる機能が追加。

    引用元: https://japan.zdnet.com/article/35230016/

    • 色々なことをClineにやらせてみた

    AIコーディングツールClineを使って、コーディング以外にも色々なことを試した事例を紹介。タワーディフェンスゲームの作成、マリオのプレイ、ネットワーク問題の調査、図の作成など、Clineの応用範囲が広がることがわかる。特に、ネットワーク調査では、 Clineにコマンド実行を指示することで、問題の切り分けをAIが行い、頼れる存在になる様子が示されている。 Clineは開発者向けのツールだが、今後は誰もが使えるAIエージェント的ソフトが発展していくと予想される。

    引用元: https://karaage.hatenadiary.jp/entry/2025/03/05/073000

    • 指導教員がAIに研究テーマを与えたら論文が20分で生成されてしまったらしく「もう大学院生は要らないのでは?」となったが議論したら更に悲しい結論が出た

    AIがM2レベルの論文を短時間で生成したことが話題。しかし、AIの利用にはコストがかかる一方、大学院生は学費を払うため、人材育成とは別の側面で存在意義があるという意見が出ている。AIは既存知識のまとめ役であり、新しい視点や発見を生み出す研究には、まだ人間の役割が重要であるとの議論も。

    引用元: https://togetter.com/li/2520654

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20250305
    Mar 4 2025
    関連リンク
    • AIエージェント時代の可能性と実践 #AIエージェント_findy

    LayerX名村氏によるAIエージェントに関する発表資料です。 LLMによってソフトウエアが「考える力」を手にしたことで、ソフトウエアの能力が限界突破し、プログラムは「定義された入力→定義された出力」から「予測不要な入力→予測可能な出力」へ変化しました。 AIエージェント開発に必要な技術要素として、Model Routing、Workflow、Tool、Memory、RAG、Evaluationを紹介。 AIエージェントの設置場所として、サーバー、ブラウザ拡張、デスクトップアプリを比較検討し、AI SDK by Vercel、Meilisearch、LlamaIndex.TS、Langfuse等の技術を紹介しています。 プロンプトインジェクションに対する対策も重要です。

    引用元: https://speakerdeck.com/layerx/ai-agents-practice-202503

    • Inception LabsのMercury Coder:dLLMs

    Inception Labsが開発したMercury Coderは、Diffusion Model(拡散モデル)をベースにした新しいLLMです。従来のTransformerモデルと異なり、ノイズ除去のプロセスでテキストを生成します。これにより、NVIDIA H100 GPU上でGPT-4の最大10倍の速度でテキストを生成できます。特にコード生成に優れており、高速なプログラミング支援が可能です。今後の展望として、チャットボットへの応用も期待されています。

    引用元: https://zenn.dev/acntechjp/articles/8827db27237c8a

    • IBM、推論機能を強化したLLM「Granite 3.2」を発表

    IBMが企業向けLLM「Granite 3.2」を発表。推論機能向上が特徴で、CoT推論という手法で複雑な問題を分割、人間のような推論を目指しています。特に、TPOフレームワークにより、推論能力を高めつつ、タスク全体の性能を維持。また、ドキュメント理解に特化したVLMも導入し、大量のPDFデータで学習させています。さらに、長期予測が可能なTiny Time Mixerモデルも提供。これらのモデルはHugging Face等で公開されており、Apache License 2.0で利用可能です。

    引用元: https://japan.zdnet.com/article/35229974/

    • OpenAI最高研究責任者が「(GPT-4.5では)ASCIIアートを作る能力なんかもすごく向上しました」というから初音ミクのアスキーアートを頼んでみました

    OpenAIの最高研究責任者がGPT-4.5でASCIIアート生成能力が向上したと発言。実際に初音ミクのASCIIアートを生成させたところ、「やる夫」風のものが生成され、SNSで話題になっています。期待されたほどの出来ではなかったようです。

    引用元: https://togetter.com/li/2520076

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20250304
    Mar 3 2025
    関連リンク
    • GitHub - WujiangXu/AgenticMemory: A novel agentic memory system

    LLMエージェント向けの新しいAgentic Memoryシステム。従来の記憶システムよりも高度な記憶整理能力を持つ。Zettelkastenの原則に基づいた動的な記憶構造、高度な索引付け、構造化された属性によるノート生成、知識ネットワークの相互接続、継続的な記憶の進化と改良、エージェント主導の適応的な記憶管理が特徴。実験では既存のベースラインを上回る性能を示した。

    引用元: https://github.com/WujiangXu/AgenticMemory

    • Pixtral-12B-2409 is now available on Amazon Bedrock Marketplace Amazon Web Services

    Mistral AIのVLM「Pixtral 12B」がAmazon Bedrock Marketplaceで利用可能になりました。画像とテキストの両方を理解でき、図表の解釈、文書の質問応答、推論などが可能です。128Kトークンまでの長文に対応し、高解像度画像も処理できます。Apache 2.0ライセンスで商用利用も可能です。Bedrock Marketplaceで簡単にデプロイでき、APIやplaygroundで試すことができます。活用例として、論理パズル、商品情報抽出、車両損傷評価、手書き文字認識、GDPデータ分析などが紹介されています。利用後は不要なリソースを削除しましょう。

    引用元: https://aws.amazon.com/blogs/machine-learning/pixtral-12b-2409-is-now-available-on-amazon-bedrock-marketplace/

    • Generative AI with Stochastic Differential Equations - IAP 2025

    MITのコース「Generative AI with Stochastic Differential Equations」の紹介です。拡散モデルやFlow-basedモデルといった生成AIの基盤となる数学的フレームワークを、基礎から学ぶことを目的としています。画像、動画、分子、音楽など幅広いデータ形式に対応。講義では、確率微分方程式のツールボックスを使い、Flow MatchingとDiffusion Modelを構築します。全3回の演習ラボでは、手を動かしながら理解を深めます。受講には線形代数、実解析、確率論の知識と、Python、PyTorchの経験が推奨されています。

    引用元: https://diffusion.csail.mit.edu

    • 行間とエクスキューズのあいだ ──対談|星野源×桜井政博(ゲームクリエイター)〈前編〉 YELLOW MAGAZINE+ 星野源 オフィシャルサイト

    星野源とゲームクリエイター桜井政博の対談。星野は桜井のゲームとコラムに親しんでおり、YouTube番組『桜井政博のゲーム作るには』に関心を持つ。番組は、桜井が自ら台本・キャプチャを行い週2~3回更新。制作費は約9000万円。桜井は技術伝承より「底上げ」を目指し、視聴者へのプラスアルファを提示。リーダーは役割の違いであり、チームより偉いわけではないと語る。桜井は、ゲームボーイで初心者も楽しめる『星のカービィ』を制作。周りの要望や状況に応じたゲーム制作をしてきた。依頼主やゲームを遊ぶ人にどれくらいリーチするかということに興味がある。

    引用元: https://www.hoshinogen.com/yellow-magazine-plus/detail/?id=266

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    Show more Show less
    Less than 1 minute
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20250303
    Mar 2 2025
    関連リンク
    • Infinite Retrieval: Attention Enhanced LLMs in Long-Context Processing

    大規模言語モデル(LLM)は処理できるトークン数に上限があり、長文の処理が課題でした。新しい手法InfiniRetriは、LLM自身の注意機構を利用して、入力長に制限なく正確な情報検索を可能にします。0.5Bパラメータのモデルで100万トークンを超えるデータに対して100%の精度を達成し、既存手法や大規模モデルを凌駕しました。追加学習なしで適用でき、推論速度と計算コストを削減します。

    引用元: https://arxiv.org/abs/2502.12962

    • Gemini Code Assist によるコーディング支援が無償で利用可能に

    GoogleのAIコーディング支援ツール「Gemini Code Assist」の無償版が登場。学生や個人開発者も利用可能。Gemini 2.0を搭載し、実質無制限のコード補完(月最大18万回)を提供。Visual Studio CodeやJetBrains IDEで利用でき、GitHubとの連携でコードレビューも支援。自然言語でのコード生成や説明も可能。より高度な機能が必要な場合は有償版も用意。

    引用元: https://cloud.google.com/blog/ja/topics/developers-practitioners/gemini-code-assist/

    • Cline / RooCodeを安全に使うためにDevContainerを使い始めた

    AIコーディングエージェントの利用時に発生しうる事故(rm -rfの暴走など)からローカル環境を保護するため、DevContainerの導入を検討した記事。DevContainerはVSCodeの拡張機能で、開発環境をDockerコンテナ内に構築する。これにより、プロジェクトごとに独立した環境が作れ、ローカル環境を汚染しない。Dockerfileを使ったカスタム環境の構築方法や、PHP Laravelでの具体的な設定例、RooCodeの組み込み方、docker-composeとの連携について解説。DevContainerを使うことで、AIツールを安全に試せる環境を手軽に構築できる。

    引用元: https://zenn.dev/kusuke/articles/972fc135f85b86

    • いらすとや、おまえだったのか。公共の場や商店の貼り紙をAIイラストの氾濫から守ってくれていたのは…

    海外でAIイラストが増える中、日本では「いらすとや」が公共の場やお店の告知物を守っているという意見がSNSで話題です。「いらすとや」は、無料で利用できる豊富なイラスト素材を提供しており、その親しみやすい絵柄が安心感を与えています。AIイラストが急速に普及する一方で、「いらすとや」の存在が、ある意味でAIイラストの氾濫を抑制する役割を果たしているという見方が出ています。ただし、いらすとやの普及によって、イラストレーターの仕事が減ったという意見もあります。

    引用元: https://togetter.com/li/2518133

    • お便り投稿フォーム

    VOICEVOX:春日部つむぎ

    Show more Show less
    Less than 1 minute
  • 私立ずんだもん女学園放送部 podcast 20250228
    Feb 27 2025
    関連リンク
    • LangGraph 0.3 Release: Prebuilt Agents

    LangGraphはAIエージェント構築フレームワークとして、Replit, Klarna, LinkedIn, Uber等で採用されている。LangGraphの基本理念は低レベルな抽象化に留めることだが、より高レベルな抽象化の価値も重視している。今回の0.3リリースでは、langgraphからlanggraph-prebuiltへcreate_react_agentを分離し、PythonとJavaScriptで構築された新しいprebuilt agentsを導入する。これらは、一般的なエージェントパターンを簡単に試せるようにしつつ、LangGraph上に構築されているため、必要に応じて容易にカスタマイズできる。コミュニティによるprebuilt agentsの貢献も奨励している。

    引用元: https://blog.langchain.dev/langgraph-0-3-release-prebuilt-agents/

    • Claude 3.7 Sonnetの技術紹介|Mizu

    Anthropic社の最新LLM「Claude 3.7 Sonnet」が登場。特徴は、AIが「考える時間」を指定できる拡張思考モード、128Kトークン対応、コーディング能力向上、応答の柔軟性向上、開発者向けコマンドラインツールClaude Codeの導入。SWE-bench Verifiedで最高性能、TAU-benchで最高スコアを達成。Webブラウザ、アプリ、APIで利用可能。APIでは思考時間やトークン設定を調整可能。無料プランでも利用可能だが、拡張思考モードは有料プランのみ。

    引用元: https://note.com/dr_yh/n/ncbfc1194c1bb

    • RoboPianist: Dexterous Piano Playing with Deep Reinforcement Learning

    UC Berkeley、Google DeepMind、Stanford University、Simon Fraser Universityが共同で、深層強化学習を用いてロボットの手にピアノを演奏させる研究を発表しました。 この研究では、高次元制御を進歩させるためのシミュレーションベンチマークとデータセットを公開しています。 MuJoCo物理エンジンで構築された環境で、24自由度を持つShadow Dexterous Handsを使用し、MIDI規格の音楽データを基にピアノ演奏を学習。 演奏の評価には、精度、再現率、F1スコアを使用しています。 また、ピアノの運指(どの指でどの音を弾くか)を考慮した報酬関数を導入し、Repertoire-150という運指ラベル付きMIDIデータセットを構築しました。 強化学習アルゴリズムDroQを使用し、エネルギーコスト、将来の目標予測、アクション空間の制約などを加えることで性能が向上。 従来のMPC手法と比較して高いF1スコアを達成しました。 課題として、ロボットの手の形状による制約や、指のストレッチが必要な楽曲への対応が挙げられています。

    引用元: https://kzakka.com/robopianist/#demo

    • ミドルエンジニアの「基礎体力」を養いたい。リクルートグループのニジボックスが研修プログラムに込めた熱き思い

    ニジボックスがミドルエンジニア向け研修プログラムを開発。指示された範囲を超え、技術選定や問題解決に必要な知識・技術を「基礎体力」と定義。研修では、深い知識理解、自力での知識獲得、論理的な判断と説明能力の3要素を重視。シニアエンジニアが議論を重ね、作問ガイドラインに基づき作成。レビューではメンターが考えさせる形式で、本質的な理解を促す。研修はエンジニアとしての市場価値向上も視野に入れている。

    引用元: https://hatenanews.com/articles/2025/02/27/103000

    • お便り投稿フォーム

    VOICEVOX:ずんだもん

    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20250227
    Feb 26 2025
    関連リンク
    • GitHub - PennyroyalTea/gibberlink: Two conversational AI agents switching from English to sound-level protocol after confirming they are both AI agents

    2つのAIエージェントが、互いをAIだと認識すると、英語から音響プロトコルに切り替える実験プロジェクト。 ggwaveというデータ音響通信プロトコルを使用。 APIが提供されており、AIエージェントにこのプロトコルを使用させることが可能。

    引用元: https://github.com/PennyroyalTea/gibberlink

    • Claude 3.7 Sonnetの拡張思考モードにおったまげた件

    Anthropic社がClaude 3.7 SonnetとClaude Codeをリリース。3.7 Sonnetは、数学・CS・コーディング支援が向上し、拡張思考モードで詳細な問題解決が可能。このモードでは、モデルが思考過程を出力し、人間のような分析的な議論を行う。記事では、N次元空間での課題を例に、標準モードと拡張思考モードを比較。拡張思考モードは、同一距離に複数の点がある場合も考慮し、より高度な推論を実現。LLMの出力が本当に正しいかを人間が判断するのに役立つツールだと述べています。

    引用元: https://zenn.dev/d2c_mtech_blog/articles/aa7dd63b28af10

    • 【考察】各部署の課題をスマートに解決する方法|足立 岳大|RAGと業務効率化オタク

    RAG(Retrieval-Augmented Generation)技術が、様々な部署の課題解決に役立つ可能性について解説。RAGは、問い合わせ対応の効率化、営業知識の共有、人事FAQの高度化、マーケティング情報収集、製品開発の情報統合、経理・税務ナレッジの参照など、多岐にわたる業務を効率化し、品質向上に貢献。各部門におけるRAG導入のメリットと導入前後の比較を示し、業務効率化と戦略的意思決定の支援について考察する。

    引用元: https://note.com/technotimes/n/nf1d94a8fa0c9

    • AIを教えた友達と1ヶ月後に会ったら、言語化能力がめちゃくちゃ上がってた。今まで言語化出来ずに内側に溜め込んでいたことが、AIと喋り続けることでできるようになった

    AIとの対話で言語化能力が向上したという体験談。AIとのやり取りを通じて、自分の考えを具体的に表現する力が磨かれるようです。AIは、相手に伝えるために必要な情報や視点を明確にする手助けをしてくれます。まるで、優秀な先輩エンジニアにレビューしてもらうような感覚かもしれません。AIネイティブ世代は、AIを活用して思考を深め、新たな可能性を広げるかもしれません。

    引用元: https://togetter.com/li/2517359

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20250226
    Feb 25 2025
    関連リンク
    • 急増するAIクローラー対策として「llms.txt」を導入してみた DevelopersIO

    AIクローラー対策として「llms.txt」を導入した事例です。llms.txtは、AIにサイトのクロール方法やコンテンツ利用に関する情報を伝えるためのファイルです。robots.txtと違い、LLMに特化した指示ができます。 記事では、llms.txtの具体的な記述例として、クロールの頻度制限、コンテンツのライセンス、サイト構造などを設定する方法を紹介しています。 これにより、AIクローラーによる過剰なアクセスを抑制し、効率的なクロールを促すことが期待できます。 自組織外のWebサービスを情報源として利用する際はllms.txtの設置状況を確認し、指示に従うことが推奨されています。

    引用元: https://dev.classmethod.jp/articles/llms-txt-for-ai-crawlers/

    • 40代後半戦のキャリアとしてSREを選んだ理由と学び直していること.

    40代エンジニアがSREを選んだ理由と学び直しについて。SREはフルスタックエンジニアの経験を活かせる分野であり、需要も多い。SREの基礎、チーム作り、クラウドアーキテクチャ戦略を学び直し、生成AIを活用した新しい働き方を模索している。

    引用元: https://shinyorke.hatenablog.com/entry/i-am-sre

    • Oisix「あなたにおすすめ」を支える機械学習システム

    Oisixの「あなたにおすすめ」機能は、過去の購入履歴から顧客の好みを学習し、AIが最適な商品を推薦するシステムです。 このシステムでは、顧客と商品をグラフ構造で表現し、Graph Neural Network (GNN)という機械学習モデルを使っておすすめの商品を算出します。 また、多様な商品を提案するために、おすすめリストを調整したり、過去に表示した商品を避ける工夫も行っています。 システムは、Snowflakeというデータ基盤とAmazon SageMakerを使って構築されており、実験を効率的に行うための仕組みも導入されています。

    引用元: https://creators.oisixradaichi.co.jp/entry/2025/02/25/120858

    • 一人でサイゼリヤに入店、スマホで注文し配膳ロボットが運んできたものを食べ、無人会計機で支払って店を出る…便利だけどそこはかとなく寂しい

    筆者がサイゼリヤでスマホ注文、配膳ロボット、無人会計を体験。便利さの反面、人との触れ合いの無さに寂しさを感じたという内容。効率化が進む一方で、店員とのコミュニケーションから生まれる温かさも失われているという意見も。お店側からは効率化のメリットがある一方、客としては少し寂しいという声も上がっている。

    引用元: https://togetter.com/li/2516910

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    Show more Show less
    Less than 1 minute