ata
发布于 2023-12-01 / 254 阅读
0
0

浅尝基于 GPT Vision + DALL-E 的复刻网页项目

#AI

(转自我的 Telegram 频道 @atashare

今天看到个叫 screenshot-to-code 的项目,基于 GPT-4 Vision 和 DALL-E 3,可以根据网页截图制作“仿冒品”,并且可以选择技术栈。

  • 可以根据截图复刻网站;

  • 可以根据网页链接复刻网站(借助了 ScreenshotOne 的截图能力,需要申请 API Key)

  • 目前支持 HTML + Tailwind / React + Tailwind / Bootstrap / Ionic + Tailwind 四种技术栈,后续应该会支持 Vue。

计费方面,可以花 $15 购买 100 次生成次数,也可以使用自己的 OpenAI API 密钥。如果选后者,帐户需要有 GPT-4 Vision 使用权限,也就是说需要产生过至少 $5 的扣款。

这个项目相当于把 GPT-4 当初发布时画的一个饼给单独实现了,提供了人性化的操作界面,并且完成度不错(可以自己选择技术栈)。并且支持私有部署,是一个不错的开源项目,适合快速复制一个简单网页的框架,方便自己开发。感觉挺有意思的,体验了一下。理想很丰满,现实很骨感。

  1. 结论

干不了重活,这是肯定的。

对于 Telegram 官网这种比较简洁的布局可以拿捏,不过手机端布局也需要自己调;像 B 站这种上强度的就完全不行了,GPT-4 写复杂任务喜欢省略东西也是老毛病了。复刻 Vivaldi 官网则是搞错了布局。

  1. 价格

复刻网页涉及到生成代码(GPT-4 Vision)和模仿网页中的图片(DALL-E),后者比较贵。

复刻 Telegram 官网花费大约 $0.4,包含一次生成和一次改进,其中生成图片的费用占一半多。剩余两个网页图片很少,每次耗费 $0.2 左右。

总之,如果要说 GPT-4 发布会的效果(当时随手画一张草图让 GPT 生成网站),那是合格的;但是目前别抱有太高期待。因为模型的输出长度受限,而且个人认为尚不具备比较复杂的组织能力。


评论