“我們沒有護城河,OpenAI 也沒有?!?
在最近泄露的一份文件中,谷歌內(nèi)部的一位研究人員表達了這一觀點。研究人員認為,在這場激烈的人工智能競爭中,雖然谷歌和OpenAI互相追逐,但真正的贏家可能不是來自這兩家,因為第三方正在崛起。
(資料圖)
這個力量就是“開源社區(qū)”,它是谷歌和OpenAI最大的敵人。
開源社區(qū)的頂尖領軍人物無疑是Hugging Face。作為AI領域的Github,提供了大量優(yōu)質(zhì)的開源模型和工具,將研發(fā)成果最大化惠及社區(qū),大幅降低AI的技術門檻,促進“民主化”人工智能的過程。
其創(chuàng)始人之一Clment 也曾公開表示:“在NLP 或者機器學習領域,最壞的情況就是與整個科學界和開源社區(qū)競爭。因此,我們不再試圖競爭,而是選擇開源和科學界?!?
Hugging Face成立于2016年,幾年內(nèi)已獲得五輪融資。目前其估值已飆升至20億美元。 Github上star數(shù)已超過9.8萬,穩(wěn)居熱門資源庫之列。
那么這家公司是做什么的呢?它是如何逆襲并成為開源界的“一把手”的?它的發(fā)展模式是怎樣的?
Hugging Face是一家以自然語言處理(NLP)技術為核心的人工智能初創(chuàng)公司。
它由法國連續(xù)創(chuàng)業(yè)者Clment Delangue(他創(chuàng)立了筆記平臺VideoNot.es、媒體監(jiān)控平臺mention、以及被谷歌收購的移動開發(fā)平臺Moodstocks等項目)與Thomas Wolf和Julien Chaumond共同創(chuàng)立。成立于2016年,總部設在。位于美國紐約。
其兩位創(chuàng)始人Clment Delangue 和Thomas Wolf 是自然語言處理領域的專家。隨著他們不斷推進Hugging Face 的發(fā)展,他們被認為是當代NLP 領域的先驅(qū)。
他們創(chuàng)立Hugging Face的初衷是給年輕人帶來一款“娛樂型”的“露天聊天機器人”,就像科幻電影《Her》中的AI一樣,可以和人聊天氣、朋友等、愛情和體育比賽。和其他主題。你無聊的時候可以和它聊天,問它問題,讓它生成一些有趣的圖片。
正因為如此,“擁抱臉”這個名字來源于一個張開雙手的可愛笑臉表情符號。
2017年3月9日,抱臉App在iOS App Store正式上線,并受到廣泛關注。它還獲得了SV Angel 和NBA 球星杜蘭特等投資者的120 萬美元天使投資。
為了訓練這個聊天機器人的自然語言處理(NLP)能力,Hugging Face 構建了一個資源庫來容納各種機器學習模型和各種類型的數(shù)據(jù)庫,包括幫助訓練聊天機器人檢測文本消息的情緒、生成連貫的文本信息回應,理解不同的對話主題等。
同時,Hugging Face 團隊在GitHub 上開源了該庫的免費部分,以便從用戶共同創(chuàng)作中獲得開發(fā)靈感。
到了2018 年,Hugging Face 依然不溫不火,并開始在網(wǎng)上免費分享該應用的底層代碼。此舉立即得到谷歌、微軟等業(yè)內(nèi)知名科技公司研究人員的積極響應。他們開始將這些代碼用于AI應用,而這個笑臉表情符號也開始被廣大AI開發(fā)者所熟知。
無獨有偶,同年,谷歌推出了基于雙向Transformer 的大規(guī)模預訓練語言模型BERT,迎來了AI 模型的“內(nèi)卷時代”。
在這樣的環(huán)境下,Hugging Face開始提供AI模型服務,并迎來了自己的“黃金時代”。
它首先開源了PyTorch-BERT;隨后,它整合了之前貢獻的NLP領域的預訓練模型,發(fā)布了Transformers庫。
Transformers 庫提供了數(shù)千個預訓練模型,支持100 多種語言的文本分類、信息提取、問答、摘要、翻譯和文本生成。借助Transformers 庫,開發(fā)者可以輕松使用BERT、GPT、XLNet、T5、DistilBERT 等大型NLP 模型完成文本分類、文本摘要、文本生成、信息提取、自動QA 等AI 任務,節(jié)省大量時間時間和計算。資源。
簡而言之,Transformers庫提供了直接可用的模型,無需企業(yè)重新開發(fā);因此,許多公司開始使用Transformers庫將模型應用到產(chǎn)品開發(fā)和工作流程中。
Transformers 庫迅速流行起來,并成為GitHub 歷史上增長最快的AI 項目。
Hugging Face 在Github 上的星形曲線,圖片來自Lux Capital
Hugging Face 創(chuàng)始人之一Clment Delangue 也忍不住感嘆,“我們發(fā)布東西的時候沒有考慮太多,社區(qū)的爆發(fā)式增長甚至讓我們感到驚訝?!?
面對如此眾多的開發(fā)者,Hugging Face 自然而然地建立了自己的社區(qū)Hugging Face Hub;同時調(diào)整產(chǎn)品策略,不再局限于自然語言處理,而是融合機器學習的不同領域,探索和創(chuàng)造新的用例,開始構建完整的開源產(chǎn)品矩陣。
截至2023年4月,Hugging Face已共享166,894個訓練模型和26,900個數(shù)據(jù)集,涵蓋NLP、語音、生物學、時間序列、計算機視覺、強化學習等領域,構建了完整的AI開發(fā)生態(tài)系統(tǒng)。
這大大降低了相關研究和應用的門檻,使Hugging Face成為AI社區(qū)最具影響力的技術供應商。
目前,這些模型已經(jīng)服務了數(shù)萬家企業(yè)進行資源開發(fā),幫助科研人員和相關從業(yè)者更好地構建模型、更好地參與產(chǎn)品和工作流程,其中包括Meta、亞馬遜、微軟、谷歌等知名企業(yè)。人工智能團隊。
使用Hugging Face的公司和產(chǎn)品Hugging Face
在資本市場上,“抱臉”也很受歡迎。
2022年5月,團隊完成由Lux Capital領投、紅杉資本參與的1億美元C輪融資,估值飆升至20億美元。
面對資本的追捧,Hugging Face創(chuàng)始人表現(xiàn)得極其冷靜,表示拒絕了多次“有意義的收購要約”,不會像GitHub那樣出售自己的業(yè)務。對于Hugging Face 的未來,其創(chuàng)始人有一些有趣的想法:“我們希望成為第一家以表情符號而非三個字母的股票代碼上市的公司?!?
因開源而備受關注的Hugging Face也特別注重社區(qū)建設。剛剛誕生的抱臉中心如今已成為AI開發(fā)者的大本營。
Hugging Face Hub 是探索、實驗、協(xié)作和構建機器學習技術的中心場所。在這里,任何人都可以共享和探索模型、數(shù)據(jù)集等,每個人都可以輕松協(xié)作構建機器學習模型。 Hugging Face Hub因此被稱為“機器學習之家”。
它是Hugging Face堅持“開源”的產(chǎn)物,也是其核心。正如官網(wǎng)宣傳語所說:AI社區(qū),共創(chuàng)未來。
Hugging Face開發(fā)者頁面Hugging Face
Hugging Face創(chuàng)始人曾公開表示,“Hugging Face的目標是通過工具和開發(fā)者社區(qū)讓更多的人使用自然語言處理工具來實現(xiàn)他們的創(chuàng)新目標,讓自然語言處理技術更容易使用和訪問?!?
他還補充道,“包括科技巨頭在內(nèi)的任何一家公司都無法獨自‘解決人工智能問題’,而我們實現(xiàn)這一目標的唯一途徑就是通過以社區(qū)為中心、共享知識和資源的方法?!?
因此,該公司致力于“人工智能民主化”,在Hugging Face Hub 上構建最大的開源模型、數(shù)據(jù)集、演示和指標集合,讓每個人都能夠利用機器學習來探索、實驗、協(xié)作和構建技術。 “目標。
目前,Hugging Face Hub 提供了超過120,000 個模型(Models)、20,000 個數(shù)據(jù)集(Datasets)和50,000 個演示應用程序(Spaces),并且全部開源、公開、免費。
Hugging Face提供的API托管服務Hugging Face
Hugging Face Hub對所有機器學習模型開放,并得到Transformers、Flair、Asteroid、ESPnet、Pyannote等自然語言處理庫的支持。其中,核心的自然語言處理庫是Transformers庫。
Transformers 庫支持PyTorch、TensorFlow 和JAX 之間的框架互操作性,這確保了在模型生命周期的每個階段使用不同框架的靈活性。而且,通過Inference API,用戶可以直接使用Hugging Face開發(fā)的模型和數(shù)據(jù)集進行推理和遷移學習。這使得Transformers框架在性能和易用性方面達到了業(yè)界領先水平,徹底改變了深度學習。 NLP領域的發(fā)展模型。
Hugging Face Hub堪稱AI行業(yè)的“Github” |抱臉
此外,平臺還提供了一些實用工具,如模型版本控制、測試集成、共享協(xié)作等,幫助開發(fā)者更好地管理和共享模型和數(shù)據(jù)集。
因此,在Hugging Face Hub 中,任何開發(fā)者或工程團隊都可以通過界面使用數(shù)千種模型的推理API,輕松下載和訓練最先進的預訓練模型,以不同模式完成常見任務,例如自然語言處理、計算機視覺、音頻、多模態(tài)等可在幾分鐘內(nèi)構建您自己的機器學習驅(qū)動的應用程序,從而消除從頭開始訓練模型所需的大量時間和資源。
在此基礎上,他們還可以在自己的賬戶下創(chuàng)建自己的倉庫,用于存儲和共享訓練好的模型、數(shù)據(jù)集和腳本,同時與強大的社區(qū)共享和交流,輕松協(xié)作進行ML 工作流程。
簡而言之,Hugging Face Hub 為研究人員提供了一個平臺,可以展示他們想要分享的模型、測試其他人的模型、深入研究這些模型的內(nèi)部架構,共同推動ML 的發(fā)展。此前,人工智能對于前端開發(fā)人員來說似乎遙不可及。畢竟,到目前為止,只有少數(shù)代碼生成的人工智能系統(tǒng)免費向公眾開放。
為此,Hugging Face決定在社區(qū)提供開源模型和API來改變這一現(xiàn)狀,并主動承擔AI研究走向應用過程中復雜而細致的工作,讓任何AI從業(yè)者都能輕松使用這些研究。模型和資源。用Hugging Face自己的話說,他們所做的就是在AI研究和應用之間架起一座橋梁。
除了提供便利之外,Hugging Face還積極采取措施加強Hub的安全性,確保用戶的代碼、模型和數(shù)據(jù)安全,讓用戶放心使用。
例如,模型庫配備模型卡,告知用戶每個模型的局限性和偏差,從而促進這些模型的負責任的使用和開發(fā);數(shù)據(jù)集中設置訪問控制功能,允許組織和個人控制權限和隱私??紤]創(chuàng)建一個私有數(shù)據(jù)集并能夠自己處理其他用戶的訪問請求。
另外值得一提的是,為了進一步“民主化”自然語言處理技術,Hugging Face Hub上還開設了NLP課程——Hugging Face課程。
本課程向您介紹如何使用Hugging Face 生態(tài)系統(tǒng)(Hugging Face Transformers、Hugging Face Datasets、Hugging Face Tokenizers 和Hugging Face Accelerate)中的數(shù)據(jù)庫進行自然語言處理(NLP)。它是完全免費的,甚至沒有廣告。
Hugging Face將自然語言處理課程直接免費上傳到視頻網(wǎng)站YouTube
簡而言之,Hugging Face Hub 就像機器學習的GitHub。一個社區(qū)開發(fā)者驅(qū)動的平臺,提供豐富的資源,使開發(fā)者能夠在機器學習(ML) 模型、數(shù)據(jù)集和ML 應用程序上不斷探索、創(chuàng)新和協(xié)作,共享知識和資源以加速和推進AI 開發(fā)。
那么問題來了,一家提供“平臺社區(qū)”的“開源”公司如何賺錢?
首先,“開源”是一個正確的決定。
憑借開源項目Transformers,Hugging Face積累了巨大影響力,聚集了大量開發(fā)者,構建了龐大的社區(qū)Hugging Face Hub,贏得了客戶和投資者的信任,這使得其商業(yè)轉(zhuǎn)型水到渠成。
對此,紅杉資本合伙人帕特·格雷迪也表示,“他們優(yōu)先考慮應用而不是變現(xiàn)。我認為這是正確的做法。他們已經(jīng)看到了Transformer 模型如何能夠在NLP 之外應用,并看到它成為GitHub Opportunities,這不僅僅是針對NLP,而是會延伸到機器學習的各個領域。”
而且,縱觀過去十年市場上初創(chuàng)公司的創(chuàng)業(yè)史,我們會發(fā)現(xiàn)開源模式的商業(yè)可行性得到了強有力的證實。 MongoDB、Elastic、Confluence等都是營收增長最快的開源公司。他們都實現(xiàn)了盈利并在市場中生存下來。
Hugging Face 的創(chuàng)始人之一克萊門特也堅信,“初創(chuàng)公司可以通過比構建專有工具創(chuàng)造更多價值的方式為開放社區(qū)賦能。”次”。
他甚至公開表示,“鑒于開源機器學習的價值及其主流地位,它的使用是遞延收入。機器學習將成為技術發(fā)展的默認方式,Hugging Face 將成為這方面的第一平臺,并創(chuàng)造數(shù)十億美元的收入。”
因此,Hugging Face選擇了“開源帶動業(yè)務”的商業(yè)發(fā)展道路,并將于2021年開始提供付費功能。
擁抱臉的收費項目擁抱臉
目前,抱臉的盈利業(yè)務主要分為三類:
付費會員:提供更好的服務和社區(qū)體驗來獲得收入;數(shù)據(jù)托管:根據(jù)不同的參數(shù)要求提供不同的小時費托管服務; AI解決方案服務:目前主打產(chǎn)品,專注于NLP、Vision等方向,為客戶提供定制化解決方案,獲取技術服務費。
值得一提的是,從2020年開始,Hugging Face開始為企業(yè)定制自然語言模型,針對不同開發(fā)者類型推出了包括AutoTrain、Inference API Infinity、Private Hub、Expert Support等個性化產(chǎn)品。
目前,已有1000多家企業(yè)成為Hugging Face的付費客戶,主要是大型企業(yè),包括英特爾、高通、輝瑞、彭博社和eBay等。
2021年,Hugging Face實現(xiàn)營收1000萬美元。從數(shù)據(jù)來看,Hugging Face的“開源驅(qū)動業(yè)務”策略是成功的。
這也印證了Hugging Face首席執(zhí)行官Clment的說法,“公司不需要從所創(chuàng)造的價值中獲得100%的分紅,只需要變現(xiàn)1%的價值,但即使是1%也足以讓你成為一名一家高市值的公司?!?
總之,Hugging Face通過開源社區(qū)積累了影響力,隨后逐漸擴展到SaaS產(chǎn)品和企業(yè)服務領域。這種漸進式的轉(zhuǎn)型讓Hugging Face在開源與商業(yè)化之間取得了良好的平衡,這也是其成功的重要原因。這一發(fā)展策略也讓Hugging Face在AI領域獨樹一幟,為其他AI初創(chuàng)公司樹立了榜樣。
然而,開源生態(tài)系統(tǒng)也有其自身的弱點,因為商業(yè)開發(fā)很可能會損害自然生長的社區(qū)環(huán)境。對此,Hugging Face的做法是加強技術的控制,維護自己的開源生態(tài);同時,將在科學研究領域進行更深入的挖掘。
“機器學習技術仍處于早期發(fā)展階段,開源社區(qū)潛力巨大。未來5到10年,我們一定會看到更多開源機器學習公司的崛起?!?
Hugging Face 首席執(zhí)行官克萊門特(Clment) 說道。