編者按:隨著人工智能(AI)的不斷發(fā)展,我們相信它將成為推動3D打印技術進步的強大力量。目前,很多團隊正在將AI與3D打印深度融合,利用AI的計算和數(shù)據(jù)分析能力,優(yōu)化3D打印的設計和制造過程,開拓更多應用領域和商業(yè)機會。今天,我們邀請到了魔芯科技創(chuàng)始人陳天潤來分享他在該領域的成功經(jīng)驗和思考。
隨著高速、多色打印技術的逐步興起,消費級3D打印機在近兩年取得了突破性進展。然而,使用場景受限、學習曲線過長以及缺乏爆款3D模型成為打開家用3D打印機的市場下一個問題點。如何才能實現(xiàn)只需輕點幾下鼠標,就能將腦海中的創(chuàng)意和設計,瞬間轉化為手中的實體模型?——這一過去難以實現(xiàn)的愿景,我看到了可能。
作為3D計算機視覺和計算機圖形學的研究者,并師從3D智能設計領域的資深專家,我在過去幾年中參與了多項AI輔助3D建模和3D模型處理的科研工作,也見證了AI 3D建模技術的快速發(fā)展。同樣,作為一名3D打印機的骨灰級愛好者,我有幸?guī)ьI魔芯科技團隊將這些技術應用于消費級3D打印機的產(chǎn)品,通過多年的研究,我們找到了一種兼顧效率和質(zhì)量的解決方案,讓更多人有機會參與到3D打印的賽道。
陳天潤及其團隊開發(fā)的從圖片、草圖或文本輸入生成3D模型的算法,目前已經(jīng)落地商用。
01
學術成果到產(chǎn)業(yè)落地,距離在哪?
今年6月,我在西雅圖參加了全球計算機視覺界最具影響力的學術會議之一的CVPR2024。隨著AI的飛速發(fā)展,原本小眾的學術會議今年涌入了超1.2萬來自全世界的學術界的研究人員。其中,在3D生成領域,頭部玩家Adobe、英偉達等企業(yè),包括各大高校展示了他們的3D AIGC算法——漂亮的demo,精美的圖表,腦洞大開的生成結果,很容易讓人有種錯覺——仿佛距離3D AIGC的行業(yè)落地近在咫尺。
事實上,這些漂亮的生成結果是過去的研究人員難以想象的。早在上世紀末,國內(nèi)研究人員就開始探索使用計算機自動設計3D內(nèi)容,我的導師潘云鶴等人提出的CAD知識工程方法中的專家系統(tǒng)AUTOCHAIR(下圖)便是代表之一。那個時代的智能內(nèi)容生成高度依賴人類設定的規(guī)則和專家知識,只能生成有限類別的設計。而現(xiàn)在,AI大模型已經(jīng)可以利用大量2D/3D數(shù)據(jù)創(chuàng)造出各式各樣的創(chuàng)意內(nèi)容,這很大程度上得益于2D圖片生成的突破性進展(如Stable Diffusion)。當研究人員發(fā)現(xiàn)通過大量圖片訓練能夠讓生成模型學會生成高質(zhì)量的2D內(nèi)容時,他們努力將這些知識用于3D內(nèi)容生成,例如谷歌的DreamFusion就是其中的代表性工作。
圖:3D建模系統(tǒng)的古今。左圖源潘云鶴著《智能 CAD 方法與模型》(1997年出版)改編,右圖來自KOKONI的3D大模型生成的結果(2024年)
然而,即使現(xiàn)在的3D AI生成算法能夠生成大量不同的3D內(nèi)容,但實際落地的公司寥寥無幾,尤其在消費級3D打印領域更為少見。這背后的原因在于主流3D生成算法與實際客戶需求仍存在較大的偏差。我們研究發(fā)現(xiàn),幾何質(zhì)量和可控生成是目前相關算法遇到的顯著挑戰(zhàn)。
首先,當前大多3D AIGC方法的生成的幾何質(zhì)量很難令人滿意。在3D AIGC領域,很多研究關注的是三維渲染,例如在游戲或影視領域的應用,這些領域中良好的可視化結果非常關鍵。然而,我們在研究中發(fā)現(xiàn),3D打印更關心的反而是幾何形狀——幾何形狀的缺陷可以通過渲染器的打光和精細的多彩紋理得到一定程度的掩蓋,但如果沒有這些美化,AI生成的3D模型就仿佛“現(xiàn)了原形”,與人類建模的結果差距甚遠。
幾何質(zhì)量的背后是生成結果表示的差異。3D打印機使用STL或OBJ等文件格式的實體三維模型,而神經(jīng)輻射場(NeRF)或高斯噴濺(Gaussian Splatting)等方法的內(nèi)在數(shù)據(jù)表示并非3D打印界熟知的實體模型,其優(yōu)化目標也是對于一個三維場景或物體的表面效果的呈現(xiàn)而非幾何特征。因此,需要探索一種“原生3D”的生成方法,直接得到3D實體模型。
此外,當前3D AIGC方法的可控性也存在不足。經(jīng)常有人問我為什么依賴3D生成而不是直接在模型庫中搜索?我的回答通常是:因為對于3D內(nèi)容而言,可控和定制是關鍵。3D生成算法如何才能與用戶的需求對齊(align),尤其是面對一些復雜的指令輸入時,這仍是一個亟待解決的問題。
圖:我和團隊在今年CVPR發(fā)表論文的生成結果和算法管線,采用“原生3D”的范式,直接通過擴散模型得到3D內(nèi)容,并通過多種信息編碼器實現(xiàn)可控生成。
為此,我們需要需要“另辟蹊徑”,找到一種高質(zhì)量且可控的3D AI建模方法。在今年的CVPR會議上,我和魔芯科技團隊與浙江大學等高校的研究人員合作,在會議上展示了我們不一樣的科研成果。我們提出了一種在少量數(shù)據(jù)訓練下即可實現(xiàn)可控并生成精細化3D結構的3D生成方法。這一方法背后是一個多階段訓練的3D幾何擴散模型——先訓練一個通用的生成“底?!保缓笤谙掠稳蝿丈衔⒄{(diào)。通過精心設計的網(wǎng)絡結構和訓練策略,我們的方法在FID、CD等多個測量指標上取得了領先的結果,因此我們的科研成果被評為本次會議精選論文,入選比例僅為2%。
02
從算法研究到商用落地的3D建模AI大模型
在公司,我有機會利用更多資源將我們發(fā)明的系列算法Scale Up,成為真正的“大模型”。近期,我?guī)ьI魔芯科技團隊發(fā)布了自研的、基于DiT擴散的3D大模型,并集成在KOKONI 3D App中,與KOKONI EC2系列3D打印機配套使用,為用戶提供服務。這是當前唯一一個在消費級3D打印領域引入大模型輔助創(chuàng)意流程的軟件工作流。
在KOKONI的3D大模型的加持下,從拿到打印機到用戶開始打印的第一個模型,3D建模就可以由AI幫助使用者完成。用戶可以在三分鐘內(nèi),僅用一段文本提示詞輸入,或是用戶手繪草圖、導入/拍攝單張圖片,都能完成不同品類的3D模型快速構建;系統(tǒng)也支持在10分鐘內(nèi)處理環(huán)繞拍攝視頻的輸入到3D模型的毫米級復原,滿足了不同場景下的建模需求。
除了支持不同類型的輸入,我和團隊還針對3D打印的需求,開發(fā)了專利保護的“無支撐快速打印”模式,用戶可以選擇生成部分類別模型的“無支撐”版本,算法將自動對幾何形狀進行優(yōu)化,并通過云端智能切片,得到無需支撐、快速打印的3D模型。結合KOKONI的旗艦級高速FDM 3D打印機KOKONI SOTA,無需調(diào)整任何切片設置,即可在數(shù)分鐘內(nèi)完成3D模型從概念到打印成品的全過程。
目前,以上建模功能均可在App Store中的KOKONI 3D App中體驗。
03
AI 3D大模型助力3D打印行業(yè)加速進化
早在2022年,我?guī)ьI的魔芯科技團隊就在小米有品推出了首個支持AI建模的消費級3D打印機KOKONI EC1,支持物品的三維重建和基于單張圖片的人像自拍建模。這是行業(yè)內(nèi)首個AI賦能的硬件產(chǎn)品。自發(fā)售以來,該產(chǎn)品已經(jīng)交付給數(shù)萬名消費者,獲得了廣泛好評。我相信,只有深厚的3D打印行業(yè)根基才能賦予我們對客戶需求和市場趨勢的獨特洞察力。
目前,我和魔芯科技團隊仍在訓練更大規(guī)模、更高分辨率的3D生成模型,并結合KOKONI SOTA等高性能3D打印機為廣大消費者帶來價值。此外,我們也在與一些行業(yè)客戶和B端商家合作,將專利的算法引擎和快速3D建模工作流應用到消費級桌面FDM 3D打印機以外的個性化制造3D打印應用場景中,大幅提高3D模型構建的效率和精度。
KOKONI 3D的在線3D建模平臺也即將開放。我堅信,AI的引入不僅僅是技術的革新,更是對整個設計和制造流程的徹底重塑。隨著技術的不斷進步,3D打印將在個性化定制、產(chǎn)品設計、B端快速原型制造等領域發(fā)揮更大的作用。我們正站在一個新時代的門檻上,見證著AI如何將3D打印推向一個全新的高度。
作者簡介
陳天潤,魔芯(湖州)科技有限公司創(chuàng)始人。浙江大學信息與電子工程學院本科,浙江大學計算機學院直博,從事三維視覺內(nèi)容生成和智能創(chuàng)作學術研究多年,師從中國智能CAD和計算機美術領域的開拓者之一的計算機應用專家。陳天潤博士在計算機視覺和計算機圖形學頂會CVPR, ICCV, SIGGRAPH和Nature Photonics, IEEE Transactions on Multimedia等頂級期刊發(fā)表論文共二十余篇,并任IJCV, TCSVT, NeurIPS等期刊和會議的審稿人。曾獲中國青少年科技創(chuàng)新獎。
|
你可能喜歡
這四家3D打印企業(yè)獲融資,分別來自西安、成
3D Systems將在Formnext 2024上推出全新3D
不同聚合物材料在3d打印醫(yī)療設備中的應用
敲開“國家隊”大門,這一3D打印醫(yī)療應用從
推薦課程
神奇的3D打印
SLA3D打印工藝全套培訓課程 - 軟件篇
3D打印月球燈視頻教程 包括完整貼圖建模流
【原創(chuàng)發(fā)布】Cura軟件修改二次開發(fā)定制視頻