Episodes

  • 株式会社ずんだもん技術室AI放送局 podcast 20241113
    Nov 12 2024
    関連リンク Gemini is now accessible from the OpenAI Library Googleは、最新のGeminiモデルへのアクセスをOpenAIライブラリとREST API経由で提供開始しました。これにより、Geminiの利用が容易になります。 現時点では、Chat Completions APIとEmbeddings APIがサポートされ、今後数週間から数ヶ月で他のAPIとの互換性も追加される予定です。 Gemini APIの詳細は、Gemini APIドキュメントを参照してください。OpenAIライブラリを使用していない場合は、Gemini APIを直接呼び出すことを推奨しています。 ドキュメントには、Python、TypeScript/JavaScript、RESTを用いたGemini APIの使用方法のコード例が掲載されています。これらの例は、gemini-1.5-flashモデルを使用してチャットボットとやり取りする方法を示しています。 APIパラメータの詳細については、APIリファレンスを参照してください。 Vertex AI Enterpriseのお客様は、OpenAIとの互換性もサポートされています。 簡単に言うと、Googleの強力なAIモデルGeminiが、OpenAIライブラリを通じてより簡単に利用できるようになったということです。 新人エンジニアの方でも、提供されたコード例を参考に、比較的容易にGeminiを自身の開発に活用できるようになっています。 引用元: https://developers.googleblog.com/en/gemini-is-now-accessible-from-the-openai-library/ Top-Tier Open Code Large Language Models OpenCoderは、英語と中国語に対応した、15億パラメータと80億パラメータのベースモデルとチャットモデルを含む、オープンソースで再現可能なコードLLM(大規模言語モデル)ファミリーです。2.5兆トークン(コードデータ90%、コード関連ウェブデータ10%)を用いてゼロから学習されており、最先端のコードLLMと同等の性能を実現しています。 本プロジェクトの大きな特徴は、その透明性と再現性の高さです。モデルの重みと推論コードだけでなく、再現可能なトレーニングデータ、データ処理パイプライン全体、厳格な実験結果、詳細なトレーニングプロトコルも公開されています。これにより、研究者はOpenCoderを基盤として、コードAIの研究開発を容易に進めることができます。 具体的には、以下のリソースが公開されています。 OpenCoder: 複数のコードLLM評価ベンチマークで最先端の性能を達成した、完全にオープンソースのコードLLM。透明性のあるデータ処理パイプラインと再現可能なデータセットを基盤として構築されています。RefineCode: 607種類のプログラミング言語にわたる、9600億トークンからなる高品質で再現可能なコード事前学習コーパス。Instructive Ablation Studies: コードLLMの様々な設計上の選択肢やトレーニング戦略に関する有益な知見を提供することを目的とした、複数の意味のあるアブレーション実験の結果。公開リソース: 最終的なモデルの重み、完全なデータ処理パイプライン、効率的な評価パイプライン、再現可能な事前学習データセット、大規模SFT(Supervised Fine-Tuning)データセット、中間チェックポイントなど。 簡単に言うと、OpenCoderは、高い性能と再現性を両立させた、オープンソースのコード生成AIです。 コードの生成や理解に関する研究開発に役立つだけでなく、その透明性から、LLMの開発手法や学習データの影響などを深く理解するための貴重なリソースとしても活用できます。 新人エンジニアの方にとっても、学習や研究に役立つ優れたツールと言えるでしょう。 公開されているデータやコードを参考に、LLMの仕組みや開発プロセスを学ぶことができます。 引用元: https://opencoder-llm.github.io/ Introducing Prompt Canvas: a Novel UX for Developing Prompts LangChainは、プロンプトエンジニアリングを容易にする新しいツール「Prompt Canvas」を発表しました。これは、AIアプリケーション開発において重要なプロンプト作成を効率化し、最適化するための革新的なユーザーエクスペリエンスを提供するツールです。 従来のプロンプト作成は手作業で行われ、ベストプラクティスに従うための調整に時間がかかりました。Prompt Canvasは、LLM(大規模言語モデル)エージェントと協調的に作業することで、この課題を解決します。 インタラクティブなインターフェースにより、LLMエージェントからのフィードバックを受...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241112
    Nov 11 2024
    関連リンク Composio’s SWE agent advances open-source on SweBench with a 48.6% score using LangGraph and LangSmith Composio社は、AIエージェント向けのAIネイティブコーディングツールキットを搭載したオープンソースのヘッドレスIDEであるSWE-Kitをリリースしました。SWE-Kitは、コードインテリジェンスのためのLanguage Server Protocol (LSP)と安全なコード実行のための開発コンテナを提供します。さらに、CodeAnalysis、シェルツール、ファイル管理、Gitツールなどの包括的なコーディングツールも備えています。 SWE-Kitの効率性を示すために、LangGraphを使用して完全なソフトウェアエンジニアリング(SWE)エージェントを構築し、SWE Benchでテストを行いました。SWE Benchは、実際のソフトウェアエンジニアリングタスクにおけるコーディングエージェントの有効性を評価するベンチマークで、Django、SymPy、Flask、Scikit-learnなどの一般的なPythonライブラリから2294個のGitHub issueを使用しています。 検証済みのトラック(ソフトウェアエンジニアによってレビューされた500個の問題のサブセット)において、エージェントは243個の問題を解決し、48.60%の精度を達成しました。これは全体で4位、オープンソースカテゴリーでは2位という結果です。 このSWEエージェントは、LangGraphを用いた状態機械として構築されています。LangGraphを使用することで、エージェントの状態をグラフで表現し、効率的で透明性のある状態管理を実現しています。従来のルーターやオーケストレーターエージェントに比べて、隠れた状態を効果的に制御・管理できます。 また、エージェントの非決定論的な性質を考慮し、LangSmithを用いてエージェントのアクションを詳細に監視しています。LangSmithはLangGraphとの高い互換性を持ち、各ステップでのエージェントのアクションを記録することで、ツールの改善に役立てています。 エージェントは、タスクを専門的に分担する3つの専門エージェント(ソフトウェアエンジニアエージェント、CodeAnalyzerエージェント、エディターエージェント)で構成されています。それぞれ、タスクの委任とワークフローの開始・終了、コードベースの分析、ファイルの編集をそれぞれ担当することで、パフォーマンスを向上させています。 ワークフローは、ソフトウェアエンジニア、CodeAnalyzer、エディターの3つのノードと、それぞれのエージェントが使用するツールノードで構成されています。各エージェントは、現在の状態とメッセージ履歴に基づいて、利用可能なツールとタスクを決定します。状態遷移は、メッセージ内の特定のマーカー(”ANALYZE CODE”、”EDIT FILE”、”PATCH COMPLETED”など)によって制御され、ワークフローを効率的かつ予測可能に保ちます。 エージェントの状態管理には、メッセージ履歴、送信者ID、訪問回数を保持するAgentStateオブジェクトを使用しています。これにより、明確なエージェント境界と遷移を維持しながら、隠れた状態の問題を回避しています。 SWE-Kitは、開発者が独自のAIエージェントを簡単に構築できるように設計されており、様々なツール、フレームワーク、LLMを組み合わせて、ワークフローに合わせたカスタムエージェントを作成できます。 将来的には、ソフトウェアエンジニアリング以外にも、CRM、HRM、管理など、様々な現実世界のアプリケーションへの適用を目指しています。 引用元: https://blog.langchain.dev/composio-swekit/ [GPT-4o] 冷蔵庫内の写真から「おすすめレシピ」を受け取ってみました。 DevelopersIO この記事は、クラスメソッドのエンジニアが、冷蔵庫内の写真からGPT-4oを用いてレシピを生成する実験を報告したものです。 以前、マルチモーダルなLLMが存在しなかった1年前にも同様の実験を行っており、その時のブログ記事へのリンクも掲載されています。 今回の実験では、冷蔵庫の中身を撮影した写真をGPT-4oに送り、2段階のプロセスでレシピを生成しています。 まず、prompt_food_enumeration.txtというプロンプトファイルを用いて、写真から食材をリスト化します。このプロンプトは、写真に写っている食品を箇条書きでリストアップするようGPT-4oに指示しており、模型と実物の区別...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241111
    Nov 10 2024
    関連リンク Everything Ive learned so far about running local LLMs この記事は、ローカル環境でLarge Language Model (LLM) を動かす方法について、著者の経験に基づいた実践的な情報をまとめたものです。著者はLLMの専門家ではなく、情報が急速に変化する分野であるため、この記事の内容も将来は古くなる可能性が高いことを前提にしています。 LLM実行のための要件: LLMを実行するには、ソフトウェアとモデルの両方が必要です。ソフトウェアとしては、llama.cpp が推奨されています。これはC++で記述されており、Python等の依存関係がないため、Windows環境でも容易に利用できます。CPU推論はGPU推論に比べて速度は遅いものの、8GB未満のVRAMしかないGPU環境では現実的な選択肢となります。GPU推論を行う場合は、8GB以上のVRAMが必要になります。llama-serverコマンドでHTTPサーバーを起動し、Web UIやAPI経由でLLMを利用できます。 モデルの選択: モデルはHugging Faceから入手できます。llama.cppと互換性のあるGGUF形式のモデルを選択する必要があります。モデルのサイズは数GBから数百GBまで様々で、パラメータ数が多いほど性能は向上しますが、必要なメモリも増加します。著者は、Mistral-Nemo-2407 (12B)、Qwen2.5-14B、Gemma-2-2Bなどを好んで使用しており、それぞれのモデルの特性(得意なタスク、速度など)についても記述しています。量子化されたモデル(例えばQ4_K_M)を使用することで、必要なメモリを削減できます。 ユーザーインターフェース: 著者は、llama.cppの組み込みUIに満足せず、独自のCLIツールIllumeを開発しています。これは、標準入力からAPIクエリを生成し、応答を標準出力にストリーミングするツールで、テキストエディタと連携して使用することを想定しています。Illumeは様々なLLMソフトウェアのAPIに対応していますが、API間の非互換性があるため、柔軟な設定が求められます。 Fill-in-the-Middle (FIM): FIMは、既存のコードにコードを挿入する手法です。llama.cppでは/infillエンドポイントが提供されていますが、対応していないモデルもあります。著者は、IllumeでFIMに対応する独自のテンプレートを作成することで、様々なモデルでFIMを利用できるようにしています。しかし、LLMはFIMにおいても生成を停止するタイミングを適切に判断できないことがあり、注意が必要です。 LLMの用途: LLMは万能ではなく、正確性の検証が容易でないタスクには適していません。また、コンテキストの長さにも制限があり、大規模なコードの生成には不向きです。LLMの得意な用途としては、校正、短編小説の創作、言語翻訳などが挙げられています。コード生成については、現状ではまだ実用レベルには達していないと結論付けています。 本要約は、原文の技術的な詳細や具体的な使用方法については省略し、日本の新人エンジニアが理解しやすいように、全体像と重要な制約事項に焦点を当てて記述しています。 引用元: https://nullprogram.com/blog/2024/11/10/ Next.js知識ゼロから生成AI頼みでWebアプリを作って思ったこと この記事は、Next.jsの知識が全くない筆者が、生成AI(主にClaude、必要に応じてChatGPTも使用)を活用して、2~3週間でNext.jsアプリを5つ開発した経験を記したものです。 新人エンジニアの方にも理解しやすいよう、要点に絞って説明します。 開発の経緯: 筆者は、Shaberi3ベンチマーク結果の可視化アプリ作成をきっかけにNext.js開発を始めました。Claudeが生成した美しいデザインのコードを参考に、ローカル環境(Ubuntu 24.04.1 LTS)で開発を始めました。 初期段階では、csvファイルの読み込みに苦労しましたが、Claudeからの丁寧な指示とChatGPTの助けを借りて、ローカル環境での実行に成功しました。 開発中は、エラー発生時に生成AIにエラーメッセージとソースコードを提示して解決策を求め、機能拡張も生成AIとの対話を通して進めました。 Claudeは期待以上の機能を提供することもありました。 完成したアプリはVercelで簡単にデプロイされ、誰でもアクセスできるようになりました。 その後、自分用アプリから発展して、より需要の高い株価・資産運用シミュレータも開発しました。 この過程で、他者からのフィードバックが...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241108
    Nov 7 2024
    関連リンク SCIPE - Systematic Chain Improvement and Problem Evaluation SCIPEは、複数のLLM(大規模言語モデル)呼び出しを含む複雑なLLMチェーンにおける問題箇所特定を支援するツールです。LLMアプリケーション開発において、最終出力だけでなく中間出力の評価も重要ですが、リソース制約から見過ごされがちです。LLMチェーンの1つのノードの不具合が、全体に悪影響を及ぼすため、デバッグが困難になります。 SCIPEは、LLMチェーンの各ノードの入力と出力を分析し、修正によって最終出力の精度を最も向上させるノードを特定します。これは、正解データ(ground truth)を必要とせず、LLM自身を評価者として利用することで実現しています。 SCIPEはノードの故障確率を2種類に分類します。 独立故障: ノード自体、またはそれを処理するLLMに起因する故障。従属故障: 上流のノードの故障が原因で発生する故障。 LLM評価者(LLM Judge)を用いて各ノードの出力を評価し、パス/フェイルスコアを生成します。この結果から、条件付き故障確率(上流ノードも故障している場合のノード故障率)と独立故障確率を計算し、問題ノードを特定します。 最も下流のノードから開始し、条件付き故障確率に基づいて上流ノードを辿り、独立故障確率が最も高いノードを根本原因として特定します。これは、再帰的なアルゴリズムで実装されています。 SCIPEを使用するには、Langgraphから生成されたアプリケーショングラフ、各ノードの入出力データ(DataFrame形式)、そして設定ファイルが必要です。設定ファイルには、LLM評価者のモデル名、検証結果の保存先などが含まれます。 LLMEvaluatorクラスを用いて、LLM評価を実行し、find_problematic_node()メソッドで問題ノードを特定します。結果は、根本原因ノード、デバッグパス、各ノードの故障確率を含むEvaluationResultオブジェクトとして出力されます。 SCIPEは、LLMチェーンにおける問題ノードの特定と修正を支援することで、LLMアプリケーションの信頼性と性能向上に貢献します。 GitHubリポジトリには、具体的な使用方法や詳細な技術情報は記載されていますが、本要約では省略しています。 引用元: https://blog.langchain.dev/scipe-systematic-chain-improvement-and-problem-evaluation/ Supercharging AI Coding Assistants with Gemini Models Context GoogleとSourcegraph社による共同研究で、Gemini 1.5 ProとFlashモデルを用いた大規模コンテキストウィンドウ(最大100万トークン)が、AIコーディングアシスタントの精度向上に大きく貢献することが示されました。 従来のAIモデルは、大規模なコードベースにおける複雑な関係性や依存関係の理解に課題がありましたが、この研究では、大規模コンテキストウィンドウによってコード理解と生成の精度が向上することを実証しています。 Sourcegraph社が開発したコーディングアシスタント「Cody」を用いた実験では、100万トークンのコンテキストウィンドウを使用することで、以下の3つの指標で大幅な改善が見られました。 Essential Recall(必須情報の再現率): 回答に含まれる重要な事実の割合が大幅に増加しました。Essential Concision(必須情報の簡潔さ): 回答の長さに対する必須情報の割合が向上し、より簡潔で関連性の高い回答が得られるようになりました。Helpfulness(有用性): 回答の長さに対する有用性のスコアが大幅に向上し、よりユーザーフレンドリーな体験が実現しました。 さらに、幻覚率(事実と異なる情報の生成)も18.97%から10.48%に減少しました。これは、AIによるコード生成の信頼性を高める上で重要な成果です。 ただし、大規模コンテキストウィンドウを使用する際には、処理時間増加というトレードオフが存在します。Sourcegraph社は、プリフェッチ機構と階層型コンテキストモデルアーキテクチャによるモデル実行状態キャッシングを実装することで、1MBのコンテキストにおける最初のトークン生成時間を30~40秒から約5秒に短縮することに成功しました。 この研究成果は、大規模コンテキストモデルがコード理解と生成を革新的に変える可能性を示唆しており、今後のAIコーディングアシスタントの発展に大きな影響を与えるものと期待されます。 詳細な評価方法...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241107
    Nov 6 2024
    関連リンク Google Confirms Jarvis AI Is Real by Accidentally Leaking It Googleが開発中のAIエージェント「Jarvis AI」が、Chrome拡張機能ストアに誤って公開され、その後すぐに削除されました。しかし、一部ユーザーはダウンロードに成功したようです。 Jarvis AIは、Web上の情報を収集したり、商品購入やフライト予約といったタスクを自動化することを目的としたAIです。Gemini AIをベースにしており、日常的なWebベースの作業の自動化を支援するとのことです。2024年12月のリリースを目指しているようです。 記事では、Jarvis AIと同様の機能を持つ他のAIエージェントについても言及しています。AnthropicのClaude AIもコンピュータを制御する機能を持ち、Apple Intelligenceも画面上の操作を学習して自動化する機能を有しています。また、MicrosoftのCopilot+ Recallも同様の機能を持っていましたが、プライバシーに関する懸念からリリースが延期されています。 これらのAIエージェントは、コンピュータ操作の自動化という点で共通の目標を持っていますが、プライバシーやセキュリティに関する課題も抱えていることが示唆されています。Jarvis AIの早期公開は、Googleがこうした技術の開発とリリースにおいて、まだ課題を抱えていることを示しているのかもしれません。 今後、Jarvis AIがどのように進化し、どのような機能を提供するのか注目されます。 引用元: https://gizmodo.com/google-confirms-jarvis-ai-is-real-by-accidentally-leaking-it-2000521089 Unearth insights from audio transcripts generated by Amazon Transcribe using Amazon Bedrock Amazon Web Services 本記事は、Amazon TranscribeとAmazon Bedrockを用いた音声データ分析によるビジネス価値創出について解説しています。音声データは分析が難しく、手動での転写・分析は時間とコストがかかりますが、生成AIを活用することで効率的にインサイトを得ることが可能になります。 課題: 音声データの分析は、手動転写とレビューが必要で時間とリソースを大量に消費します。自動音声認識ツールはテキスト化できますが、インサイト抽出には依然として人的作業が必要です。 解決策: Amazon Transcribeによる音声テキスト化と、Amazon Bedrock上のファウンデーションモデル(FM)を用いた分析を組み合わせることで、効率的なインサイト抽出を実現します。具体的には、AnthropicのClaude 3 Sonnetなど、Amazon Bedrockで提供されている様々なLLMを選択して利用可能です。 具体的なユースケース: マーケティングコンテンツ分析: ポッドキャスト、インタビュー、動画などを要約、分類、分析し、新たなマーケティング素材を生成します。会議録分析: 会議録音から主要ポイント、要約、感情分析を行い、戦略的意思決定に役立てます。コンタクトセンター通話分析: 通話を転写・分析し、顧客体験向上に繋げます。 Amazon Transcribeの機能: 音声テキスト化、複数話者認識、個人情報自動削除、業界固有の語彙やカスタム言語モデルの使用による精度向上など。 Amazon Bedrockの機能: テキスト要約、トピック特定、結論認識、感情分析、新規コンテンツ生成など。 既存のテキストデータを用いて、ブログ記事作成、要約文作成、SEOキーワード抽出、さらには顧客満足度や感情分析まで行うことが示されています。 実装例: 記事では、PythonとJupyter Notebookを用いた具体的なコード例が紹介されています。Amazon S3のバケットに音声ファイルをアップロードし、Amazon Transcribeでテキスト化、その後、Amazon Bedrock上のFMを用いて様々な分析を行う流れが示されています。 (コードの詳細な説明は省略) 結論: Amazon TranscribeとAmazon Bedrockの組み合わせにより、音声データから顧客感情、課題、リスク軽減策などの貴重なインサイトを効率的に抽出できます。手動作業に比べて時間とコストを削減し、既存コンテンツを革新的に活用する機会を生み出します。 マーケティング、会議分析、顧客サービスなど、様々な分野で活用可能です。 引用元: https://aws.amazon.com/blogs/machine-learning/unearth-insights-from-audio-transcripts-generated-by-amazon-transcribe-using-amazon-bedrock/ Reducto Document Ingestion API RD-TableBenchは、複雑な表のデータ抽出性能を評価するためのオープンベンチマークです。スキャンされた表、...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241106
    Nov 5 2024
    関連リンク xAI、Grok APIを一般公開|月額25ドルの無料クレジットで開発者獲得へ - イノベトピア イーロン・マスク氏率いるxAIが、大規模言語モデルGrokのAPIを一般公開しました。11月4日より、月額25ドル分の無料クレジットを提供し、開発者獲得を目指しています。Grok APIは、入力トークン100万件あたり5ドル、出力トークン100万件あたり15ドルで利用できます。コンテキスト制限は131,072トークンです。 現在利用可能なのはgrok-betaモデルのみで、OpenAIやAnthropicのSDKと互換性があり、Python、JavaScript、Goなど主要なプログラミング言語をサポートしています。 xAIは、テネシー州メンフィスの「Colossus」という世界最大級のAIトレーニングシステム(10万台のNVIDIA H100 GPU、将来的には20万台規模に拡張予定)を用いてGrokを開発しており、その処理能力は10.6エクサフロップスを超えると推測されています。推定投資額は40億ドル以上とされています。 Grokは既存モデルとは異なる「反抗的な性質」を持つ点が特徴です。 API価格は競合他社と比較してやや高めですが、Xプラットフォームのリアルタイムデータを利用した学習モデルという独自性があります。開発者は、この新しいAPIを用いて革新的なアプリケーション開発に挑戦できます。 環境への影響も懸念されており、今後の大規模化には配慮が必要となります。 xAIの公式サイトでAPIドキュメント等を確認できます。 引用元: https://innovatopia.jp/ai/ai-news/44493/ Updated production-ready Gemini models, reduced 1.5 Pro pricing, increased rate limits, and more Googleは、本番環境対応のGeminiモデルを2種類更新し、Gemini-1.5-Pro-002とGemini-1.5-Flash-002をリリースしました。今回のアップデートでは、以下の改善がなされています。 価格改定: Gemini 1.5 Proの入力・出力トークン価格が50%以上削減されました(128Kトークン未満)。レート制限の増加: Gemini 1.5 Flashは2倍、1.5 Proは約3倍、レート制限が向上しました。パフォーマンス向上: 出力速度が2倍、レイテンシが3倍低減されました。モデル品質の向上: 数学、ロングコンテキスト、ビジョン処理において、大幅な性能向上を実現しました。MMLU-Proベンチマークで約7%、MATHとHiddenMathベンチマークで約20%の改善が見られました。コード生成や画像理解でも2~7%の性能向上を確認しています。レスポンスの簡潔性も向上し、より多くの情報を効率的に取得できます。デフォルトフィルター設定の更新: セキュリティと信頼性を向上させつつ、開発者が用途に最適な設定を選択できるように、デフォルトではフィルターが適用されなくなりました。 これらのモデルは、Google AI Studio、Gemini API、Vertex AIを通じてアクセス可能です。特にGemini 1.5 Proは、最大200万トークンのロングコンテキストウィンドウとマルチモーダル機能を活用した、様々な用途への応用が期待されています。 より高速でコスト効率の良い開発が可能になり、より多くの開発者がGeminiを活用できる環境が整いました。 今後、Gemini APIのレート制限もさらに引き上げられる予定です。 Gemini-1.5-Flash-8B-Exp-0924という実験的なモデルもリリースされており、テキストとマルチモーダル用途での性能向上が図られています。 今回のアップデートは、既存ユーザーにとっても、新規参入者にとっても、より使いやすく、コスト効率の良い開発環境を提供するものと言えます。 詳細については、関連するGoogleのドキュメントを参照ください。 引用元: https://7a0e920-dot-gdm-deepmind-com-prod.appspot.com/discover/blog/updated-production-ready-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/ iOS 18.2 beta adds ‘Upgrade to ChatGPT Plus’ option in Settings app - 9to5Mac iOS 18.2ベータ版で、設定アプリ内にChatGPT Plusへのアップグレードオプションが追加されました。これは、iOS 18.2に搭載されたSiriとAIライティングツールへのChatGPT統合の一環です。 iOS 18.2では、システム全体でOpenAIのアシスタントがSiriの代替として機能し、既存のAppleのライティングツールを補完する形でChatGPTが統合されています。 AppleとOpenAIは、このChatGPT統合において、アップグレードしたユーザーからの収益を共有する合意を結んでいるようです。 設定アプリから「Apple Intelligenceと...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241105
    Nov 4 2024
    関連リンク OmniGen: Unified Image Generation 本論文は、統一的な画像生成を行う新しい拡散モデル「OmniGen」を紹介しています。既存のStable Diffusionなどの拡散モデルは、ControlNetやIP-Adapterといった追加モジュールを必要とするのに対し、OmniGenはそれらを必要としません。 OmniGenの主な特徴は以下の3点です。 統一性: テキストからの画像生成だけでなく、画像編集、被写体駆動型生成、視覚条件付き生成といった様々な下流タスクを内包的にサポートします。さらに、エッジ検出や人物姿勢認識といった古典的なコンピュータビジョンタスクも、画像生成タスクに変換して処理できます。 シンプルさ: 追加のテキストエンコーダを必要としない簡素化されたアーキテクチャを採用しており、既存の拡散モデルと比較してユーザーフレンドリーです。複雑なタスクも、事前処理(例:人物姿勢推定)なしに指示だけで実行でき、画像生成のワークフローを大幅に簡素化します。 知識転移: 統一的なフォーマットで学習することで、異なるタスク間での知識転移が効果的に行われ、未知のタスクやドメインにも対応し、新たな能力を示します。また、モデルの推論能力と、思考連鎖機構の潜在的な応用についても検討されています。 OmniGenは、汎用的な画像生成モデルへの最初の試みであり、解決すべき課題も残されています。関連リソースはGitHub (このURL - 本要約ではURLへのアクセスは行いません)で公開される予定です。 これは、この分野の進歩を促進することを目的としています。 新人エンジニアの皆さんにとって、OmniGenは様々な画像生成タスクをシンプルに処理できる強力なツールとなる可能性を秘めていると言えるでしょう。 引用元: https://arxiv.org/abs/2409.11340 New Paper Co-authored by Tepper School Researchers Articulates How Large Language Models Are Changing Collective Intelligence Forever - Tepper School of Business - Carnegie Mellon University カーネギーメロン大学のテッパービジネススクールなどの研究者らが執筆した論文が、Nature Human Behavior誌に掲載されました。この論文は、大規模言語モデル(LLM)が集団知能に与える影響について論じています。 集団知能とは、多くの人々の協調、共同作業、競争から生まれる共有された知能であり、合意形成的な意思決定に現れます。論文では、LLMが集団知能をどのように変革するか、その可能性とリスクの両方を強調しています。 LLMは、情報収集とコミュニケーションを促進することで、グループの協調と意思決定を向上させる可能性を秘めています。例えば、異なるバックグラウンドや言語を持つ人々のコミュニケーションを容易にし、より効果的なコラボレーションを可能にします。多様な意見をスムーズに共有することで、より包括的で生産性の高いオンライン交流を促進するのです。 しかし、LLMには課題もあります。一つは、LLMが利用可能なオンライン情報から学習するため、少数派の意見を見落としたり、一般的な意見を強調したりすることで、誤った合意を生み出す可能性があることです。もう一つは、オンライン上の情報には誤った情報や誤解を招くデータが含まれていることが多く、LLMが適切に管理されない場合、それらを拡散してしまう可能性がある点です。データの正確性を確保するための綿密な監視と定期的な更新が不可欠であり、責任あるLLMの利用が、集団的意思決定における誤った結果を避けるために重要になります。 研究者らは、特に政策決定や公共討論において、LLMの倫理的および実践的な意味合いをさらに探求する必要性を強調しています。 LLMを責任ある方法で使用するためのガイドラインの開発を提唱しており、集団知能を支援しながら、個人の多様性と表現を維持することを目指しています。 この論文は、LLMが集団知能に与える大きな影響と、その活用における慎重な考慮の必要性を改めて示しています。 引用元: https://www.cmu.edu/tepper/news/stories/2024/september/collective-intelligence-and-llms.html ほぼリアルタイム!?爆速で動作する日本語特化の文字起こしAI!『kotoba-whisper-v2.0』 この記事は、Kotoba Technologiesが開発した日本語特化の音声認識モデル「kotoba-whisper-v2.0」...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20241101
    Oct 31 2024
    関連リンク Gemini in Android Studio, now helping you across the development lifecycle Android Studioに搭載されたAIコーディングアシスタント「Gemini」の大規模アップデートがリリースされました。今回のアップデートでは、開発ライフサイクルの全段階でAIを活用できるようになり、生産性の向上に大きく貢献します。 主な新機能は以下の通りです。 1. コード編集・改善機能: Gemini Code Transforms: プロンプトによるコードの修正やリファクタリングが可能になります。複雑なコード変更も簡単に実行できます。コミットメッセージ生成: コード変更を分析し、適切なコミットメッセージを自動生成します。バージョン管理の効率化に役立ちます。Rethink and Rename: クラス、メソッド、変数名の変更を支援します。より直感的で分かりやすい名前に変更できます。プロンプトライブラリ: よく使うプロンプトを保存・管理できます。再利用することで作業時間を短縮できます。ドキュメント生成: 選択したコードスニペットのドキュメントを簡単に生成できます。コードの可読性向上に役立ちます。 2. UI開発支援機能: Composeプレビューの自動生成: Composeを使ったUI開発において、プレビューに必要なモックデータを自動生成します。UIデザインの確認を迅速化できます。マルチモーダル対応(近日公開予定): 画像をコンテキストとして利用できるようになり、より直感的なUIデザインが可能になります。 3. アプリ品質向上機能: 単体テストシナリオ生成: ローカルのコードコンテキストに基づいて、単体テストのシナリオを自動生成します。テスト作成の負担を軽減できます。ビルド/同期エラー分析: ビルドや同期エラーに関する分析機能が強化されました。エラー解決の時間を短縮できます。App Quality Insightsの機能強化: Google Play ConsoleとFirebase Crashlyticsから報告されたクラッシュに関する分析と修正提案機能が強化され、ローカルコードコンテキストも活用できるようになりました。バグ修正の迅速化につながります。 GeminiはAndroid StudioのCanaryチャンネルで利用可能です。多くの機能は年末にリリースされるLadybug Feature Dropで安定版チャンネルにも提供される予定です。 制約事項: Geminiの開発支援機能を利用するには、ソースコードをサーバーに送信することに同意する必要があります。GoogleはAIの責任ある利用に尽力しており、ユーザーのプライバシー保護にも配慮しています。詳細については、提供されているプライバシーに関するドキュメントを参照ください。 新人エンジニアの皆さんにとって、GeminiはAndroidアプリ開発における強力な味方となるでしょう。ぜひ活用して、効率的な開発を目指してください。 引用元: https://android-developers.googleblog.com/2024/10/whats-new-in-gemini-in-android.html Playwrightを参考にブラウザ内テキスト検索を高速化する (事例紹介:サードパーティスクリプト提供会社) 本事例は、サードパーティスクリプト提供会社(社名は非公開)におけるブラウザ内テキスト検索の高速化プロジェクトの報告です。 既存のブラウザ自動操作技術(E2Eテスト応用)では、テキスト検索が遅いため、Playwrightのコードを参考に高速化を図りました。 まず、PlaywrightのChrome拡張機能からテキストセレクタ生成コード(InjectedScript)を移植・調査しました。Playwrightは独自のセレクタを用いてテキスト検索を実現しており、DOM全体を走査してテキストインデックスを作成していました。このインデックス作成と、DOM変更監視のためのMutationObserverが、パフォーマンスボトルネックとなっていました。 計測にはDevToolsのPerformanceタブを使用し、特にJavaScriptタスクの処理時間をBottom-Up表示で分析しました。その結果、lodash.isElementによる要素判定(約9ms)と、PlaywrightのelementText関数によるテキストインデックス作成(約13ms)が問題点として浮上しました。 lodash.isElementについては、el instanceof HTMLElementに置き換えることで、不要なオブジェクト走査を排除し、処理時間をゼロに削減しました。これは、lodashがIE時代のレガシーコードを含み、現代の環境ではオーバーヘッドとなることを示しています。 elementText関数については、DOM走査にdocument.createTreeWalkerを...
    Show more Show less
    Less than 1 minute