Text-to-3D從文本到立體模型,OpenAI 發(fā)布Point-E用于3D建模
魔猴君 行業(yè)資訊 665天前
OpenAI 是Elon Musk 創(chuàng)立的人工智能,支持流行的 DALL-E 文本到圖像生成器。近日,OpenAI宣布發(fā)布其最新的圖片制作工具 POINT-E,可以直接從文本提示生成 3D點(diǎn)云。據(jù)了解,現(xiàn)有系統(tǒng)(如 Google 的 DreamFusion)通常需要數(shù)小時(shí)和 GPU 來生成圖像,而 Point-E 只需要一個(gè) GPU 和一兩分鐘即可完成。
開放人工智能
3D建模已經(jīng)被各種行業(yè)的發(fā)展采用,從零件、汽車、飛機(jī)、建筑設(shè)計(jì)到現(xiàn)代電影大片、視頻游戲、VR 和 AR 的 CGI 效果,再甚至到NASA 的月球隕石坑測繪任務(wù)、Google 的遺址保護(hù)項(xiàng)目以及 Meta 的 Metaverse 愿景都取決于 3D建模功能。
然而,創(chuàng)建逼真的3D圖像仍然是一個(gè)耗費(fèi)資源和時(shí)間的過程, Text-to-3D 是該研究的一個(gè)分支。與類似系統(tǒng)不同,Point-E利用大量(文本、圖像)語料庫,使其能夠遵循多樣化和復(fù)雜的提示,為了根據(jù)文本提示生成3D對象,OpenAI 首先使用文本到圖像模型對圖像進(jìn)行采樣,然后根據(jù)采樣圖像對3D對象進(jìn)行采樣。這兩個(gè)步驟都可以在幾秒鐘內(nèi)完成, 并且不需要昂貴的優(yōu)化程序。
如果輸入文本提示,比如“一只貓?jiān)诔阅鞲缇盹灐保?/span>Point-E 將首先生成該吃墨西哥卷餅的貓的合成視圖3D渲染。然后,通過一系列擴(kuò)散模型運(yùn)行生成的圖像,以創(chuàng)建初始圖像的 3D、RGB 點(diǎn)云,首先生成粗略的 1,024 點(diǎn)云模型,然后生成更精細(xì)的 4,096 點(diǎn)云模型。在實(shí)踐中,Point-E假設(shè)圖像包含來自文本的相關(guān)信息,并且沒有明確地限制文本上的點(diǎn)云。
這些擴(kuò)散模型分別在“數(shù)百萬”個(gè) 3D 模型上進(jìn)行訓(xùn)練,所有模型都轉(zhuǎn)換為標(biāo)準(zhǔn)化格式。目前OpenAI 已在 Github 上發(fā)布了該項(xiàng)目的開源代碼。
人工智能與工業(yè)設(shè)計(jì)
雖然目前OpenAI 發(fā)布的Point-E針對性解決的問題是從文本到立體模型的轉(zhuǎn)化,還并沒有涉及到工業(yè)設(shè)計(jì)這樣深層次的建模。不過在3D科學(xué)谷看來,OpenAI 要顛覆的商業(yè)模式是將軟件的服務(wù)即銷售的SaaS模式變?yōu)槟P图翠N售的MaaS模式,那么下一步Point-E滲透到工業(yè)設(shè)計(jì)領(lǐng)域的人工智能建模或?qū)⒅溉湛纱?/span>
在安世亞太張效軍老師的《人工智能如何改變工業(yè)設(shè)計(jì)?》一文分享過,相比制造和業(yè)務(wù)流程的數(shù)字化智能化,設(shè)計(jì)的智能化、自動化發(fā)展相對緩慢,在很多領(lǐng)域,采用CAD繪圖式的低效設(shè)計(jì)環(huán)節(jié)甚至成為整體產(chǎn)品開發(fā)或企業(yè)擴(kuò)產(chǎn)能的瓶頸,眾多的設(shè)計(jì)人員也將為企業(yè)帶來較大成本支出。
根據(jù)《人工智能如何改變工業(yè)設(shè)計(jì)?》一文,智能算法驅(qū)動的設(shè)計(jì)完全是動態(tài)的,無論是滿足幾何關(guān)系約束的運(yùn)動,還是像真實(shí)物理世界的物體在力的作用下產(chǎn)生的運(yùn)動或變形,都可以在設(shè)計(jì)過程中實(shí)現(xiàn),過程中任意狀態(tài)的幾何模型都可以輸出。在這種動態(tài)的智能設(shè)計(jì)過程中,仿真已經(jīng)成為真正的驅(qū)動設(shè)計(jì)的工具,力可以直接用來塑造形狀,就像大自然一樣。
來源:3D科學(xué)谷