Text-to-3D从文本到立体模型，OpenAI 发布Point-E用于3D建模

| 3DScienceValley · 2022/12/25

OpenAI 是Elon Musk 创立的人工智能，支持流行的 DALL-E 文本到图像生成器。近日，OpenAI宣布发布其最新的图片制作工具 POINT-E，可以直接从文本提示生成 3D点云。3D科学谷了解到现有系统（如 Google 的 DreamFusion）通常需要数小时和 GPU 来生成图像，而 Point-E 只需要一个 GPU 和一两分钟即可完成。

开放人工智能

3D建模已经被各种行业的发展采用，从零件、汽车、飞机、建筑设计到现代电影大片、视频游戏、VR 和 AR 的 CGI 效果，再甚至到NASA 的月球陨石坑测绘任务、Google 的遗址保护项目以及 Meta 的 Metaverse 愿景都取决于 3D建模功能。

然而，创建逼真的3D图像仍然是一个耗费资源和时间的过程， Text-to-3D 是该研究的一个分支。与类似系统不同，Point-E利用大量（文本、图像）语料库，使其能够遵循多样化和复杂的提示，为了根据文本提示生成3D对象，OpenAI 首先使用文本到图像模型对图像进行采样，然后根据采样图像对3D对象进行采样。这两个步骤都可以在几秒钟内完成，并且不需要昂贵的优化程序。

如果输入文本提示，比如“一只猫在吃墨西哥卷饼”，Point-E 将首先生成该吃墨西哥卷饼的猫的合成视图3D渲染。然后，通过一系列扩散模型运行生成的图像，以创建初始图像的 3D、RGB 点云，首先生成粗略的 1,024 点云模型，然后生成更精细的 4,096 点云模型。在实践中，Point-E假设图像包含来自文本的相关信息，并且没有明确地限制文本上的点云。

这些扩散模型分别在“数百万”个 3D 模型上进行训练，所有模型都转换为标准化格式。目前OpenAI 已在 Github 上发布了该项目的开源代码。

人工智能与工业设计

虽然目前OpenAI 发布的Point-E针对性解决的问题是从文本到立体模型的转化，还并没有涉及到工业设计这样深层次的建模。不过在3D科学谷看来，OpenAI 要颠覆的商业模式是将软件的服务即销售的SaaS模式变为模型即销售的MaaS模式，那么下一步Point-E渗透到工业设计领域的人工智能建模或将指日可待。

在安世亚太张效军老师的《人工智能如何改变工业设计？》一文分享过，相比制造和业务流程的数字化智能化，设计的智能化、自动化发展相对缓慢，在很多领域，采用CAD绘图式的低效设计环节甚至成为整体产品开发或企业扩产能的瓶颈，众多的设计人员也将为企业带来较大成本支出。

根据《人工智能如何改变工业设计？》一文，智能算法驱动的设计完全是动态的，无论是满足几何关系约束的运动，还是像真实物理世界的物体在力的作用下产生的运动或变形，都可以在设计过程中实现，过程中任意状态的几何模型都可以输出。在这种动态的智能设计过程中，仿真已经成为真正的驱动设计的工具，力可以直接用来塑造形状，就像大自然一样。

无论如何，算法统治的世界正在到来，你捕捉到这些蛛丝马迹了吗？

知之既深，行之则远。基于全球范围内精湛的制造业专家智囊网络，3D科学谷为业界提供全球视角的增材与智能制造深度观察。有关增材制造领域的更多分析，请关注3D科学谷发布的白皮书系列。