Episodes

  • 株式会社ずんだもん技術室AI放送局 podcast 20240930
    Sep 29 2024
    関連リンク OpenAI considering restructuring to for-profit, CTO Mira Murati and two top research execs depart OpenAIは、営利企業への再編を検討していることが明らかになりました。これは、CTOのミラ・ムラティ氏をはじめ、最高研究責任者(CRO)のボブ・マクグロウ氏、研究担当副社長のバレット・ゾフ氏といった主要な人物が相次いで退社したことを受けてのことです。 再編により、投資家にとってより分かりやすく、従業員がより容易に利益を得られる構造になると期待されています。ただし、非営利部門は別組織として存続する予定です。 OpenAIは、2022年末のChatGPTのリリース以降、急成長を遂げ、企業価値は1,500億ドルを超えるとの評価を得ています。しかし、その一方で、急速な成長に伴うリスクや、従業員や経営陣の不安定化といった課題も抱えています。 今回の再編は、これらの課題に対処し、OpenAIの持続的な成長を確保するための試みと考えられます。特に、優秀な人材の流出を防ぎ、今後の研究開発を推進していくことが重要となるでしょう。 今回の動きは、AI分野における競争が激化する中で、OpenAIがどのように対応していくのかを示す重要な出来事と言えます。今後、OpenAIがどのような方向に進み、AI技術の開発と社会実装にどのような影響を与えるのか、注目が集まります。 新人エンジニアの皆さんにとって、OpenAIはAI分野における最先端の技術開発を牽引する企業の一つです。今回の再編や人材の変動は、AI業界全体に大きな影響を与える可能性があります。常に最新の情報に目を向け、今後の動向を注視していくことが重要です。 引用元: https://www.cnbc.com/amp/2024/09/25/openai-cto-mira-murati-announces-shes-leaving-the-company.html RAG-LLMシステムへのユーザークエリは4つのレベルに分類できる 最も複雑なのは「隠れた根拠からの推論が必要なクエリ」Microsoftによる研究 AIDB この記事では、Microsoftの研究者が行った、大規模言語モデル(LLM)を外部情報で強化する際に必要となる質問に関する調査結果について解説しています。 LLM単体では、特定の分野や最新情報への対応が難しい場合があり、外部データの活用が重要になります。外部データを用いることで、事実と異なる情報を生成してしまう「ハルシネーション」の抑制にも繋がります。 外部データ活用には、検索拡張生成(RAG)やファインチューニングといった手法がありますが、それぞれに課題も存在します。特に、専門性の高い分野や複雑な推論を必要とする質問に対しては、適切なデータ選択やLLMの活用方法が重要になります。 そこでMicrosoftの研究チームは、ユーザーからの質問を4つの難易度レベルに分類し、それぞれに適した解決策を提案しています。 質問の4つのレベル 単純な事実確認: 最も簡単なレベルで、直接的な答えが得られる質問です。複数の事実の組み合わせ: 複数の情報を組み合わせる必要がある質問です。推論と解釈: ある程度の推論や解釈が必要な質問です。隠れた根拠からの推論: 最も複雑なレベルで、質問の意図を理解し、関連する情報を推測して回答する必要がある質問です。 LLMの能力を最大限に引き出すには、質問のレベルを理解し、適切なデータや手法を選択することが重要になります。この記事では、これらのポイントを踏まえて、LLMと外部データの連携をより効果的に活用する方法について解説しています。 新人エンジニアの皆さんにとって、LLMは非常に興味深く、かつ活用範囲が広い技術です。しかし、その潜在能力を最大限に引き出すためには、適切な知識と理解が必要です。この記事で紹介されているMicrosoftの研究成果は、LLMと外部データの連携に関する理解を深める上で、非常に有益な情報となるでしょう。ぜひ参考にして、LLMの活用を検討してみてください。 引用元: https://ai-data-base.com/archives/76241 AMD Unveils Its First Small Language Model AMD-135M AMDは、新たに開発した小型言語モデル(SLM)「AMD-135M」を発表しました。これは、AMD Instinct™ MI250アクセラレータを用いてゼロから学習された、Llamaファミリー初のSLMです。AMD-135Mは、一般的なデータ6700億トークンで学習された「AMD-Llama-135M」と、さらにコードデータ200...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240927
    Sep 26 2024
    関連リンク How Replit is pushing the frontier for monitoring complex AI agents with LangSmith Replitは、3000万人以上の開発者がコードの作成、実行、共同作業を簡単にできるプラットフォームを提供し、AIイノベーションの最前線に立っています。最近リリースされたReplit Agentは、その使いやすさから瞬く間に人気となり、様々な用途で利用されています。 Replit Agentは、LangGraphと呼ばれる複雑なワークフローを基盤としており、高度なカスタマイズと並列実行を可能にしています。LangGraphはLangSmithとシームレスに連携し、エージェントの動作を詳細に可視化することで、問題のデバッグを容易にします。 Replit Agentの複雑さにより、LangSmithにも新たな課題が突きつけられました。LangChainとReplitのチームは協力し、LLMの可視化ニーズに対応するため、LangSmithに以下の3つの機能を追加しました。 大規模なトレースのパフォーマンスとスケーラビリティの向上: LangSmithは、LLMアプリケーション全体の処理フローをトレースすることで、包括的なコンテキストを提供します。Replit Agentは、コードのレビューや作成だけでなく、プランニング、開発環境の作成、依存関係のインストール、アプリケーションのデプロイなど、幅広い機能を実行するため、非常に大規模なトレースを生成します。LangChainチームは、大量のトレースデータを効率的に処理・保存し、可視化するための機能を強化しました。トレース内検索とフィルタリング: LangSmithは従来、多数のトレースの中から特定のトレースを検索する機能を提供していました。しかし、Replit Agentのトレースが長くなるにつれて、特定のイベントをトレース内から検索する必要性が高まりました。そこで、トレース内検索機能が追加され、入力や出力のキーワードなど、特定の条件に基づいてトレース内のイベントをフィルタリングできるようになりました。スレッドビューによるヒューマンインザループワークフローの有効化: Replit Agentは、AIエージェントと人間の開発者が効果的に連携できるツールを目指しており、人間の開発者がエージェントの動作を編集・修正できるように設計されています。LangSmithのスレッドビューは、複数のスレッドから生成されたトレースを関連付け、マルチターン会話におけるエージェントとユーザーのやり取りを論理的に表示します。これにより、ユーザーが困っている箇所や、人間の介入が有益な箇所を特定しやすくなりました。 ReplitはLangSmithの強力な可視化機能を活用することで、AIエージェントのモニタリングにおいて新たな地平を切り開いています。大規模なトレースの読み込みを高速化することで、複雑なエージェントの構築とスケーリングを加速させています。より迅速なデバッグ、トレースの可視化の向上、並列タスクの効率的な処理により、AI駆動開発の新たな基準を確立しています。 引用元: https://blog.langchain.dev/customers-replit/ Molmo by Ai2 Molmoは、Allen Institute for Artificial Intelligence(Ai2)によって開発された、マルチモーダルなオープン言語モデルです。簡単に言うと、画像とテキストの両方を理解し、それらに基づいて質問に答えたり、情報を生成したりできるAIシステムです。 Molmoの主な特徴としては、以下の点が挙げられます。 画像とテキストの両方を入力として受け付ける: 写真や画像をアップロードしたり、テキストで質問したりすることで、Molmoと対話できます。自然言語処理能力: 人間の言語を理解し、それに応答する能力に優れています。マルチモーダルな理解: 画像とテキストを組み合わせて理解することで、より深いレベルでの情報処理が可能です。 Molmoを利用する上での注意点としては、まだ開発中のシステムであり、完璧な回答が得られない場合もある点です。また、入力データの質によって出力結果も変化するため、適切な情報を与えることが重要です。 Molmoは、画像認識や自然言語処理といった分野における研究開発を促進する可能性を秘めています。将来的には、様々なアプリケーションに活用され、私たちの生活をより便利で豊かなものにしてくれることが期待されます。 引用元: https://molmo.allenai.org/ ...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240926
    Sep 25 2024
    関連リンク Introducing Assistant Editor for configuring agents in LangGraph Studio LangChainのLangGraph Studioに、エージェントの設定を容易にする新しい機能「Assistant Editor」が追加されました。このビジュアルエディタにより、開発者だけでなく、コードに詳しくないユーザーでも、LLMベースのエージェントの動作を微調整できるようになります。 Assistantとは? Assistantは、LangGraphにおけるグラフのインスタンスで、特定の設定が適用されています。これにより、グラフの根本的なロジックを変更せずに、エージェントの動作を迅速に変更できます。特に、実験やコードを書かずにエージェントをカスタマイズする際に便利です。同じグラフ構造を持つAssistantであっても、プロンプト、モデル、その他の設定オプションが異なる場合があります。 Assistant Editorとは? Assistant Editorは、LangGraph Studioに搭載された、Assistantの作成と変更のためのビジュアルインターフェースです。 直感的な設定: ユーザーフレンドリーなインターフェースを通じて、プロンプトの調整、異なる言語モデルの選択、その他のグラフパラメータの変更が簡単に行えます。リアルタイムプレビュー: Studio内で異なるAssistant設定を選択して実行し、設定を試すことができます。バージョン管理: Assistant設定の異なるバージョンを保存および追跡し、パフォーマンスの比較や変更の復元を容易にします。共同作業: チームメンバーとAssistant設定を共有し、レビューと反復を容易にします。 誰がどのように恩恵を受けるか? 開発者/エンジニアチーム: Assistant Editorは、プロンプト、モデル、パラメータの迅速な変更とテストを可能にし、実験とプロトタイピングを効率化します。バージョン管理システムにより、変更の追跡や異なる設定の比較を行い、エージェント設定の進化をチーム全体で把握し、パフォーマンスの微調整に役立ちます。ビジネスユーザー: ビジュアルインターフェースで直接エージェントの動作をカスタマイズし、特定のユースケースやユーザーニーズに合わせることができます。プロンプトや設定を反復処理する機能により、ビジネスチームとエンジニアリングチームのニーズのギャップを解消し、コラボレーションを促進することで、エージェントのやり取りを改善するプロセスを加速します。 Assistant Editorを使うには? LangGraph Studioを最新バージョンに更新し、プロジェクトを開いて、「Assistants」ドロップダウンから新しいAssistantを作成するか、既存のAssistantを選択して編集します。 今後の展望 Assistant Editorは、エージェント開発をよりアクセスしやすく、効率的にするための取り組みの始まりに過ぎません。LangGraph Studioを、LangGraph Cloudに展開されたエージェントと対話するための完全なGUIにすることを目指しています。APIのすべてのエンドポイントをStudioから使用できるようにすることで、より多くの人がエージェントの開発と管理を行うことができるようになります。 LangGraph StudioのAssistant Editorで、エージェントの設定をビジュアルに行いましょう。 引用元: https://blog.langchain.dev/asssistant-editor/ Vision use cases with Llama 3.2 11B and 90B models from Meta Amazon Web Services Amazon Web Services (AWS)は、Metaの最新の大規模言語モデル(LLM)であるLlama 3.2の11Bパラメータと90Bパラメータのモデルを、SageMaker JumpStartとAmazon Bedrockで利用可能にしたことを発表しました。 Llama 3.2は、画像認識機能を備えた初のLlamaモデルであり、テキストだけでなく画像を理解して処理することができます。これにより、ドキュメントの画像からの質問応答、画像からの構造化情報の抽出、画像のキャプション生成など、幅広いビジョンベースのユースケースに対応できるようになりました。 Llama 3.2の主な特徴 マルチモーダル: テキストと画像の両方を処理可能効率性: 処理速度が向上し、レイテンシが削減多言語対応: 英語、ドイツ語、フランス語など8言語に対応長いコンテキスト: 最大128,000トークンの長いテキストを処理可能 ビジョンベースのユースケース AWSは、Llama 3.2のビジョン機能を活用した様々なユースケースを紹介しています。 ドキュメントの質問応答: 財務資料...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240925
    Sep 24 2024
    関連リンク Updated production-ready Gemini models, reduced 1.5 Pro pricing, increased rate limits, and more Googleは、Gemini 1.5シリーズの最新モデルである「Gemini-1.5-Pro-002」と「Gemini-1.5-Flash-002」をリリースしました。これらのモデルは、Google I/Oで発表されたGemini 1.5モデルをベースに、性能が大幅に向上しています。 主な改善点は以下の通りです。 性能向上: 数学、長文処理、画像認識などのタスクで、特にGemini-1.5-Proは性能が約7%向上しました。価格改定: Gemini-1.5-Proの入力と出力のトークン価格が50%以上削減されました。速度向上: 出力速度が2倍、レイテンシが3倍削減されました。利用制限緩和: Gemini-1.5-FlashとGemini-1.5-Proの利用制限がそれぞれ2倍と3倍に緩和されました。安全対策: デフォルトの安全フィルター設定が変更され、開発者が用途に合わせて設定できるようになりました。 これらのモデルは、Google AI Studio、Gemini API、Vertex AIを通じて利用可能です。特に、Gemini-1.5-Proは最大200万トークンの長いコンテキストを処理できるため、複雑な文書や動画の処理に適しています。 今回のアップデートにより、Gemini 1.5シリーズはより高速で、コスト効率が高く、使いやすくなりました。これらのモデルを活用することで、より高度なAIアプリケーションを開発できるようになるでしょう。 制約事項としては、Gemini-1.5-Proの価格改定は128Kトークン未満のプロンプトに適用される点、安全フィルターはデフォルトで適用されない点などに注意が必要です。詳細な情報は、Gemini APIのドキュメントを参照ください。 引用元: https://developers.googleblog.com/en/updated-production-ready-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/ RAGを超えた新技術登場!その名も「Self-Route」 近年、大規模言語モデル(LLM)は複雑な質問に答えられる一方、計算コストが課題となっています。一方、検索拡張生成(RAG)は低コストで迅速な回答を提供できますが、複雑な処理には不向きです。 「Self-Route」は、LLMとRAGの長所を組み合わせた新しい技術です。クエリの内容に応じて、LLMとRAGを使い分けることで、コストと精度のバランスを最適化します。 Self-Routeの仕組み RAG-and-Routeステップ: まず、RAGでクエリに関連する情報を検索します。長文コンテキスト予測ステップ: RAGだけでは処理できない複雑なクエリの場合、LLMが全文脈を解析し、回答を生成します。動的ルーティング: クエリに応じてLLMとRAGを自動的に使い分けることで、無駄なくリソースを活用します。 Self-Routeのメリット コスト効率の向上:RAGで処理できるクエリはRAGで処理し、LLMの使用を最小限に抑えることで、コストを削減できます。高精度な回答:複雑なクエリにはLLMが対応するため、精度の高い回答を得られます。柔軟な適応性:クエリに応じて適切な技術を選択することで、幅広い種類のクエリに対応できます。 Self-Routeの制約 多段階推論が必要な質問、曖昧な質問、長くて複雑な質問、暗黙的な理解を要する質問など、RAGだけでは処理できないクエリには限界があります。 今後の課題 RAGの多段階推論能力の向上実際のデータセットを用いた評価 Self-Routeは、LLMとRAGの利点を融合した画期的な技術であり、今後、様々な分野で活用されることが期待されています。新人エンジニアの皆さんも、この新しい技術に注目してみてはいかがでしょうか。 引用元: https://qiita.com/ryosuke_ohori/items/a94c648df3243b5af323 話題のGraphRAGにAWSで挑戦しよう!(LlamaIndexとNeptuneに入門) 近年、LLM(大規模言語モデル)において、RAG(Retrieval Augmented Generation)という検索結果を組み合わせる技術が注目されています。従来のRAGは、ドキュメントをベクトルに変換して検索していましたが、Microsoftが公開したGraphRAGは、ドキュメントを「グラフ」として保存することで検索精度向上を目指しています。 グラフとは、ノードとエッジで関係性を表すもので、GraphRAGでは知識グラフを扱うことが多いです。知識グラフを保存するにはグラフDBが必要で、AWSではAmazon Neptuneが利用できます。Neptuneは、データベース機能に加え、大規模グラフを高速に分析できるNeptune Analyticsも提供しています。 一方、RAGの実装にはLangChain...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240924
    Sep 23 2024
    関連リンク Transforming home ownership with Amazon Transcribe Call Analytics, Amazon Comprehend, and Amazon Bedrock: Rocket Mortgage’s journey with AWS Amazon Web Services 米国の最大手住宅ローン会社であるRocket Mortgage社は、AWS上に構築されたAIツール「Rocket Logic – Synopsis」を導入し、顧客とのやり取りと業務効率を大きく改善しました。このツールは、Amazon Transcribe Call Analytics、Amazon Comprehend、Amazon BedrockといったAWSサービスを活用することで、顧客との通話内容を分析し、顧客満足度向上や業務自動化を実現しています。 具体的には、通話内容の自動要約により年間4万時間の業務時間を削減し、初回通話での解決率を10%向上させることで年間2万時間の削減に貢献しました。さらに、AIを活用したIVR(自動音声応答システム)により、70%の顧客がセルフサービスを利用するようになり、顧客体験の向上にも繋がっています。 Rocket Mortgage社は、AWSの導入にあたって「小さく始めて、学び、そして拡大する」というアジャイルなアプローチを採用しました。わずか10日間で3万件のサービスコールに対応するシステムを構築し、その後、運用と銀行業務の領域に拡大しました。 このソリューションの導入によって、Rocket Mortgage社は以下のような成果を上げています。 業務効率の向上: 通話内容の自動転写と感情分析により、年間4万時間の業務時間削減が見込まれています。顧客体験の向上: AIを活用したIVRにより、70%の顧客がセルフサービスを利用するようになりました。初回通話での解決率の向上: 初回通話での解決率が10%向上し、年間2万時間の業務時間削減に貢献しています。 Rocket Mortgage社は、今後、Rocket Logic – Synopsisをさらに進化させ、高度な予測分析、オムニチャネル対応、顧客嗜好のトラッキング、パーソナライズされた顧客体験の実現を目指しています。 本事例は、AIとクラウド技術を活用して顧客サービスを向上させ、業務を効率化するビジネスにとって貴重な示唆を与えてくれます。AWSサービスを活用することで、顧客とのやり取りと業務プロセスを迅速かつスケーラブルに変革できることを示しています。 引用元: https://aws.amazon.com/blogs/machine-learning/transforming-home-ownership-with-amazon-transcribe-call-analytics-amazon-comprehend-and-amazon-bedrock-rocket-mortgages-journey-with-aws/ Accelerate development of ML workflows with Amazon Q Developer in Amazon SageMaker Studio Amazon Web Services Amazon SageMaker Studioに統合された生成AIアシスタント「Amazon Q Developer」は、機械学習(ML)ワークフローの開発を加速させるためのツールです。データ収集からモデル構築、デプロイ、メンテナンスまで、複雑なMLプロジェクトの様々な段階で、自然言語を用いたコード生成、ステップバイステップのガイダンス、エラーのトラブルシューティングなどを提供します。 Amazon Q Developerの主な機能 SageMaker Studioとの統合: SageMaker StudioのJupyterLabノートブックから直接使用できます。自然言語によるアシスタント: 自然言語で質問することで、コード生成やツール推薦、トラブルシューティングの支援を受けられます。コードのインラインサジェスチョン: コードを記述中に、コンテキストに応じたコードの提案を受けられます。チャット機能: MLプロジェクトの計画策定や、特定のタスクのためのコード生成、既存コードの説明などを依頼できます。 利用方法 Amazon Q Developerは、AWS Identity and Access Management (IAM)とAWS IAM Identity Centerのユーザーが利用できます。Pro TierとFree Tierがあり、それぞれ機能と料金が異なります。Pro Tierは、無制限のチャットとインラインコードサジェスチョンを提供します。Free Tierは、SageMakerサービスロールに関連するポリシーを追加することで利用できます。 データポリシー Amazon Q Developerは、お客様のコンテンツをサービス改善のために利用することはありません。ただし、IDEレベルのテレメトリ共有では、サービスの利用状況(質問数、提案の採否など)が追跡される場合があります。この情報は、IPアドレスなどの個人情報や顧客コンテンツを含みません。テレメトリ共有をオプトアウトする方法は、SageMaker Studioの設定から行えます。また、管理者はライフサイクル構成...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240920
    Sep 19 2024
    関連リンク 任天堂株式会社 ニュースリリース :2024年9月19日 - 株式会社ポケットペアに対する特許権侵害訴訟の提起について|任天堂 任天堂とポケモンは、2024年9月18日に、ゲーム「Palworld / パルワールド」を開発・販売するポケットペアに対して、東京地方裁判所に特許権侵害訴訟を起こしました。 これは、パルワールドが任天堂の複数の特許を侵害しているとして、その行為の差し止めと損害賠償を求めるものです。 任天堂は、長年培ってきた自社の知的財産、特にブランドの保護に力を入れており、今回の訴訟もその一環です。知的財産の侵害行為に対しては、今後も必要な対策を継続していくとしています。 簡単に言うと、任天堂は自社のゲームのアイデアをパクったとポケットペアを訴えたということです。任天堂は、自社の知的財産を大切に守るため、今後も同様の行為には厳しく対応していく姿勢を示しています。 新人エンジニアの皆さんへ このニュースは、ゲーム業界だけでなく、ソフトウェア開発全般において、知的財産権の重要性を改めて認識させてくれる事例です。皆さんが将来、ゲームやソフトウェアを開発する際には、他社の知的財産を侵害しないよう、十分に注意する必要があります。特に、特許や著作権といった概念は、開発において非常に重要な要素となりますので、しっかりと理解しておくようにしましょう。 引用元: https://www.nintendo.co.jp/corporate/release/2024/240919.html RAG の精度を向上させる Advanced RAG on AWS の道標 Amazon Web Services 近年、大規模言語モデル(LLM)を活用したアプリケーション開発が盛んになり、検索拡張生成(RAG)が注目されています。RAGは、LLMに外部知識ベースから関連情報を提供することで、より正確で最新の情報に基づいた回答生成を可能にする技術です。 基本的なRAGシステムは多くの場合で十分な性能を発揮しますが、より複雑な質問や高度な用途では、検索精度やコンテキスト理解の向上など、さらなる改善が必要になります。Advanced RAGは、この課題に対応するために開発された、RAGを拡張する様々な技術や手法の総称です。 Advanced RAGでは、データ準備段階、クエリ処理、検索段階、検索結果の後処理、回答生成の各段階において、様々な改善策が提案されています。例えば、チャンクサイズの調整、ドキュメントパースの改善、メタデータによるフィルタリング、ハイブリッド検索などは、比較的容易に実装でき、大きな効果が期待できます。 さらに高度な改善としては、リランキング、クエリ書き換え、Small-to-Big Retrieval(階層チャンク)といった手法があります。これらの手法は、検索結果の精度や文脈理解を向上させるのに役立ちますが、処理時間やリソース消費とのバランスを考慮する必要があります。 また、近年注目されているGraphRAGは、ナレッジグラフを用いることで、文書間や概念間の複雑な関係性を表現し、多段階の推論を可能にする手法です。AWSのサービスを活用することで、Amazon NeptuneなどのグラフデータベースとAmazon BedrockなどのLLMを組み合わせ、GraphRAGを実装することができます。 Advanced RAGの手法を効果的に活用するためには、まずRAGシステムの性能を適切に評価し、具体的な問題点を特定することが重要です。評価システムを構築し、回答の質が悪いパターンを分析することで、最適な改善策を検討できます。 本記事では、Advanced RAGの概要、AWS上での実装方法、そして重要な改善ポイントについて解説しました。これらの情報を参考に、皆様のRAGシステムの精度向上に役立てていただければ幸いです。 引用元: https://aws.amazon.com/jp/blogs/news/a-practical-guide-to-improve-rag-systems-with-advanced-rag-on-aws/ Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model OpenAIは、最新の大規模言語モデル「o1」の内部処理を隠蔽し、ユーザーによるその動作の調査を制限しています。o1は、問題解決プロセスを段階的に実行し、その過程を「思考チェーン」として生成しますが、OpenAIはユーザーに対してはフィルターを通した解釈結果のみを表示し、生の思考チェーンは公開していません。 これは、o1の思考プロセスを監視し、...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240919
    Sep 18 2024
    関連リンク GitHub - ictnlp/LLaMA-Omni: LLaMA-Omni is a low-latency and high-quality end-to-end speech interaction model built upon Llama-3.1-8B-Instruct, aiming to achieve speech capabilities at the GPT-4o level. LLaMA-Omniは、Llama-3.1-8B-Instructをベースに構築された、音声言語モデルです。音声指示に基づいて、テキストと音声の両方の応答を同時に生成し、低遅延かつ高品質な音声対話を実現することを目指しています。 LLaMA-Omniの特徴 Llama-3.1-8B-Instructを基盤とすることで、高品質な応答を生成します。遅延が226msと非常に短い、低遅延な音声対話を実現します。音声指示に対して、テキストと音声の両方の応答を同時に生成します。わずか4つのGPUで3日以内の短期間でトレーニングが完了しました。 制約事項 LLaMA-Omniは、MetaのLlama 3.1を基盤としているため、Llama 3.1のライセンスに準拠する必要があります。 LLaMA-Omniは、音声対話においてGPT-4レベルの性能を目指した、有望なモデルです。日本語のエンジニア、特に新人エンジニアにとって、音声認識や自然言語処理技術の理解を深める上で、参考になるリポジトリと言えるでしょう。 引用元: https://github.com/ictnlp/LLaMA-Omni Qwen2.5: A Party of Foundation Models! Qwen2.5は、アリババが開発したオープンソースの大規模言語モデル(LLM)の最新バージョンです。Qwen2の後継として、コーディングに特化したQwen2.5-Coder、数学に特化したQwen2.5-Mathを含む、様々なサイズ(0.5B〜72Bパラメータ)のモデル群が公開されました。 Qwen2.5の主な特徴は、以下の通りです。 知識量の増加と性能向上: 18兆トークンのデータで事前学習されており、Qwen2と比較して、MMLU、HumanEval、MATHなどのベンチマークで大幅な性能向上を実現しています。命令理解力とテキスト生成能力の強化: より複雑な指示への対応力、8Kトークンを超える長文生成、表などの構造化データの理解、JSONなどの構造化出力生成能力が向上しました。多言語対応: 中国語、英語、フランス語など29以上の言語に対応しています。トークン数: 最大128Kトークンの入力と最大8Kトークンの出力をサポートしています。 Qwen2.5-Coderは、5.5兆トークンのコード関連データで学習されており、小型モデルでも他のLLMと比較して競争力のあるコーディング性能を発揮します。Qwen2.5-Mathは、中国語と英語に対応し、CoT、PoT、TIRなどの推論手法を取り入れています。 性能面では、Qwen2.5-72BはLlama-3.1-70B、Mistral-Large-V2などのオープンソースLLMと比較して、優れた性能を示しています。また、APIベースのフラッグシップモデルであるQwen2.5-Plusは、GPT4-oやClaude-3.5-Sonnetなどの商用モデルと比較しても遜色のない性能を有しています。 利用方法としては、Hugging Face Transformers、vLLM、Ollamaなどのツールを用いて、API経由やローカル環境で利用できます。また、vLLMやOllamaでは、ツール呼び出し機能もサポートされています。 Qwen2.5は、オープンソースコミュニティの協力によって開発が進められています。今後も、マルチモーダルな情報処理や推論能力の強化など、更なる発展が期待されます。 制約として、3Bと72B以外のモデルはApache 2.0ライセンスで公開されています。また、Qwen2.5-PlusやQwen2.5-Turboなどのフラッグシップモデルは、Model Studioを通じてAPIアクセスのみ提供されています。 本要約は、Qwen2.5の主要な特徴と性能、利用方法、そして今後の展望を理解する助けとなることを目的としています。新人エンジニアの方でも、Qwen2.5の概要を掴み、今後の学習や開発に役立てられることを願っています。 引用元: http://qwenlm.github.io/blog/qwen2.5/ RLHF and RLAIF in GPT-NeoX GPT-NeoXは、大規模言語モデルの事前学習フレームワークとして広く使われているオープンソースのライブラリです。EleutherAIとSynthLabsは共同で、GPT-NeoXに人間の好みを反映させるための強化学習(RLHF)と好みに基づくAI学習(RLAIF)の機能を追加しました。 RLHFは、AIモデルを人間の好みに合わせるための効果的な手法で、要約などのタスクでモデルの性能向上に役立ちます。GPT-NeoXでは、RLHFの実装として、直接的選好最適化(DPO)とKahneman-Tversky最適化(KTO)という2つの手法が導入されました。DPOは、使いやすく安定した学習が可能なため、広く...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240918
    Sep 17 2024
    関連リンク Announcing Pixtral 12B Mistral AIは、画像とテキストの両方を理解するようにトレーニングされた、新しいオープンソースの多様な言語モデル「Pixtral 12B」を発表しました。 Pixtral 12Bは、Mistral Nemo 12Bをベースに、新たに4億パラメータのビジョンエンコーダを追加することで、多様なタスクにおいて優れた性能を実現しています。特に、図表や文書の理解、多様な推論、指示に従う能力に優れており、MMMU推論ベンチマークでは52.5%という高いスコアを達成しています。これは、他の多くのより大規模なモデルを上回る成果です。 Pixtral 12Bは、画像の解像度やアスペクト比を維持したまま処理できるため、ユーザーは画像処理に使用するトークンの数を柔軟に調整できます。また、最大128kトークンの長いコンテキストウィンドウ内に複数の画像を処理することも可能です。 Pixtral 12Bの主な特徴 画像とテキストの両方を理解多様なタスクで優れた性能を発揮テキストのみのベンチマークでも最先端の性能を維持可変の画像サイズとアスペクト比に対応最大128kトークンの長いコンテキストウィンドウ内で複数の画像を処理可能Apache 2.0ライセンス Pixtral 12Bのアーキテクチャ Pixtral 12Bは、画像をトークン化するビジョンエンコーダと、テキストと画像のシーケンスから次のテキストトークンを予測する多様なトランスフォーマーデコーダの2つのコンポーネントで構成されています。このアーキテクチャにより、任意のサイズの画像を複数処理できます。 Pixtral 12Bの活用方法 Pixtral 12Bは、Mistral AIが提供するチャットインターフェース「Le Chat」やAPIを通じて利用できます。また、mistral-inferenceやvLLMなどのライブラリを用いてローカル環境で実行することも可能です。 Pixtral 12Bは、オープンソースでありながら、多様な言語モデルの性能において新たな基準を打ち立てました。今後、様々なアプリケーションやワークフローに統合され、画像とテキストの処理において重要な役割を果たしていくことが期待されます。 引用元: https://mistral.ai/news/pixtral-12b/ Synchron Announces First Use of Amazon’s Alexa with a Brain Computer Interface Synchron社は、脳コンピューターインターフェース(BCI)を用いて、ALS(筋萎縮性側索硬化症)患者がAmazon Alexaを操作することに世界で初めて成功したと発表しました。 このBCIシステムは、脳の運動皮質の表面にある血管に、経静脈的に埋め込まれます。患者の思考を検知し、ワイヤレスで送信することで、重度の麻痺を持つ人々が、手を動かさずにデジタルデバイスを操作することを可能にします。 今回の発表では、ALS患者であるMarkさんが、SynchronのBCIシステムを使って、Amazon FireタブレットのTap to Alexa機能を通じてスマートホームを制御することに成功しました。照明のオンオフ、ビデオ通話、音楽再生、スマート家電の操作など、音声や手を使わずに、思考だけで様々な操作が可能になりました。 Synchron社は、Alexaとの連携を通じて、BCI技術の可能性を広げ、自宅内外の環境制御を容易にすることを目指しています。これにより、重度の麻痺を持つ人々の自立性向上に貢献できると期待されています。 Synchron社のCEOであるTom Oxley氏は、「SynchronのBCIは、神経技術と消費者向け技術のギャップを埋めるものであり、麻痺を持つ人々が再び環境をコントロールできるようになる可能性を示しています。」と述べています。 今回の成果は、BCI技術が、重度の麻痺を持つ人々の生活の質を向上させるための大きな可能性を秘めていることを示すものです。今後の研究開発によって、さらに多くの機能が追加され、より多くの患者が恩恵を受けることが期待されます。 引用元: https://www.businesswire.com/news/home/20240916709941/en/Synchron-Announces-First-Use-of-Amazon%E2%80%99s-Alexa-with-a-Brain-Computer-Interface**. Build RAG-based generative AI applications in AWS using Amazon FSx for NetApp ONTAP with Amazon Bedrock Amazon Web Services このブログ記事では、Amazon Web Services (AWS) 上で、Retrieval Augmented Generation (RAG) ベースの生成AIアプリケーションを構築する方法について解説しています。RAGは、大規模言語モデル(LLM)の出力に関連する情報を外部データソースから...
    Show More Show Less
    Less than 1 minute