生成AIモデルの名前をWebで検索すると、HuggingFace(ハギングフェイス)というウェブサイトを一度は目にすると思います。HuggingFaceは2023年に、Google・Amazon・Nvidia・Intel・AMD・Qualcomm・IBM・Salesforceから2億3,500万ドル(≒370億円)の資金調達を実施し、その際の評価額が45億ドル(≒7,000億円)にもなったスタートアップです。企業名が頻繁に人々の目に入り、名だたる企業から出資を受けていながら、HuggingFaceがどういった会社であるか、どのような事業を運営しているか、実はそれほど日本語の情報が多くない気がします。今回は、そんなHuggingFaceの会社とサービス内容を紹介します。
なお、為替レートは2024年6月16日時点のものを使用しています。
(Source: ChatGPTで「huggingfaceのアイコンを生成して」というプロンプトで生成)
HuggingFaceの誕生
HuggingFaceは2016年にアメリカ・ニューヨークで設立されました。設立当時のHuggingFaceは、主に10代の若者向けに、AIとおしゃべりできるチャットボットアプリとして “HuggingFace” を提供していました。
コンシューマー向けのチャットボットアプリを提供する中で、AIモデルのホスティングや学習を自分たちで行っていましたが、2016年当時は機械学習モデルを組織で管理する方法が確立されておらず、データセットや学習の管理等、さまざまな点で課題が多かった時代です。AIモデルを頻繁に学習させ、更新されたモデルを公開するということだけでも非常に骨の折れる仕事でした。そこで培われたエンジニアリングノウハウをサービスとして提供することで、機械学習プラットフォームとしてのHuggingFaceが出来上がりました。
そして徐々にコンシューマー向けのチャットボットアプリを提供する会社から、機械学習プラットフォームとしての現在の"HuggingFace"に事業転換していきました。これは巨大ECサイトを運営することで得られた知見から生まれたAWS (Amazon Web Services) の誕生過程と似ているかもしれません。
ちなみに、社名とロゴの由来についてはHuggingFaceのCEOであるClem Delangue氏が 20VC with Harry Stebbings というポッドキャストのインタビューで「僕らは 🤗という絵文字が大好きでよく使っていました。あと、NASDAQの証券コードに絵文字を使う最初の会社になりたかったんです。」と述べており、そもそも事業とはあまり関係がないようです。
HuggingFaceの3つの側面
HuggingFaceのサービスは、大きく分けて、Hub・Spaces・ライブラリの3セクションから構成されます。
AI版のGitHub
HuggingFace Hubには、AIに特化したコード管理機能をはじめ、モデル公開機能・データセット管理機能等、「AI版GitHub」ともいえる機能が揃っています。そしてGitHub同様に、開発者コミュニティの強さもその特徴の一つです。例えば microsoft/phi-2 のページを見ると、モデルの紹介画面である「Model card」 、モデルとコードのバージョン管理画面である「Files and versions」、そして「Community」という3つの画面で構成されていることがわかります。Communityでは効率的なファインチューニング(基盤モデルを固有のデータセットで追加学習すること)の方法や不具合の修正等のテーマについて活発に議論が行われています。従来であればAIのモデルやそのアプリケーションは、特定の企業の中でクローズドに改修されるものでしたが、最近ではHuggingFaceに公開することでコミュニティによってブラッシュアップされるという新たなムーブメントが誕生しました。
(Source: https://huggingface.co/microsoft/phi-2)
機械学習のためのインフラ
HuggingFace SpacesにモデルとWebアプリケーションを併せてアップロードすることで、HuggingFaceのコンピュータリソースを使ったデモを行うことができます。最近では新たなLLMに関する研究成果を公開する際に、モデルとWebアプリケーションをHuggingFace Spacesに公開することで、論文だけでなくデモを実際に触って試せるようにする発表スタイルが見られるようになりました。2 vCPU + 16GB RAMの計算リソースに加えて50GBのストレージまで無料枠の範囲で利用できるため、多くのデモは無償で公開されています。
HuggingFace Spaces Hardwareというサービスでは、NvidiaのA100のような最新鋭のGPUを従量課金制で使用することができ、デモだけでなくファインチューニングを実行することも可能です。
機械学習ライブラリを提供する開発会社
“Transformers” はBERTやLLaMaといったTransformerベースのLLMの実行や学習を行うための機械学習ライブラリであり、“Diffusers” は、画像や音声の拡散(Diffusion)モデルを扱うための機械学習ライブラリです。TransformersやDiffusersの他にもTokenizersやDatasets、PEFT、Accelerateといった、LLM開発にはなくてはならないライブラリを数多く開発しています。
シリーズDラウンド実施時のニュース記事によると、2023年8月時点で50万のモデル、25万のデータセット、25万のアプリがHuggingFaceにホストされており、その数を2024年中に3倍にすることを目標にしているようです。収益については、こちらの記事によると、2022年に1,500万ドルだったところから、2023年に7,000万ドルと急成長を遂げており、2024年にはさらに数倍の成長を見込んでいるようです。
強力なエコシステムこそが企業価値の源泉
AIの進化に応じて、開発者はAIモデルそのものだけでなく、GPUやRAMの効率的利用に注意を払う必要があり、複合的な知識と実装力が求められるようになってきています。ハードウェアや低レイヤのエンジニアリングをHuggingFaceのエコシステムが提供するサービスやライブラリが担うことで、AIの開発がシンプルかつスピーディになります。
(Source: https://github.com/nlp-with-transformers/notebooks/blob/main/01_introduction.ipynb)
HuggingFaceを用いた開発スタイルの普及は、AWSやGCP(Google Cloud Platform)といったクラウドサービスが登場した時のWeb開発のダイナミクスに非常に似ています。HuggingFaceはAI開発に欠かせない巨大なエコシステムへと成長することが期待されており、これが45億ドルという評価額を得た大きな理由の1つではないかと思います。
AIスタートアップでは、開発したモデルをHuggingFaceに公開し、そのモデルがトレンドの上位に入ることは既に大きな名誉となっています。HuggingFaceへの関心はますます高まるばかりです。
IDATEN Ventures(イダテンベンチャーズ)について
フィジカル世界とデジタル世界の融合が進む昨今、フィジカル世界を実現させている「ものづくり」あるいは「ものはこび」の進化・変革・サステナビリティを支える技術やサービスに特化したスタートアップ投資を展開しているVCファンドです。
お問い合わせは、こちらからお願いします。
今回の記事のようなIDATENブログの更新をタイムリーにお知りになりたい場合は、下記フォームからぜひ IDATEN Letters に登録をいただければ幸いです。