您好、欢迎来到现金彩票网!
当前位置:刘伯温论坛 > 图像理解 >

谷歌等祭出图像语义理解分割神器PS再也不用专业设计师!

发布时间:2019-05-20 20:07 来源:未知 编辑:admin

  密歇根大学和谷歌大脑的研究人员合作,提出了一种图像语义分层处理框架,可以实现像素级别的图像语义理解和操纵,在图像中任意添加、改变、移动对象,并与原图浑然一体,实现真正的“毫无PS痕迹”。

  无论是色调、光线还是纹理,都与原图配合得更加自然,操作起来也十分简单方便。

  这多亏了密歇根大学和谷歌大脑的研究人员,他们提出了一种新的图像语义处理分层框架,首先根据图像中给定对象的边界框,学习生成像素级语义标签地图(pixel-wise semantic label maps),然后根据这个地图再生成新的图像。

  因此,用户可以实现对象级的操纵,无论是改变颜色、移动位置、去除某个物体,增加新的东西,或者把原来在最前面的人物往后移一层或两层,而且与原图像自然融为一体。

  定量和定性结果分析,该方法比当前流行的Context Encoder、Pix2PixHD等效果都要高出许多。这有望掀起计算机视觉和图像处理界的巨变,难怪有人看完后在Twitter留言:

  “在我两年前开始学计算机视觉时,这种技术简直是无法想象的。”“简直是科幻变成了现实!”

  想必大家看到这个神级PS技术,对其原理应该是十分好奇了吧!接下来,小编就带着读者领略这款神技的技术奥秘!

  当给出新的边界框B时,算法首先通过以B为中心、尺寸为S×S的裁剪平方窗口,提取标签映射(semantic label map)MRS×S×C和图像IRS×S×3的局部观测值。 在M,I和B上,模型通过以下过程生成操纵图像:

  结构生成器的目标是以像素级类标签MRS×S×C的形式推断由B = {b,c}指定的区域的潜在结构。

  给定一个masked layout M和一个binary mask B,分别用于对目标的类和位置进行编码。该模型通过来自双流解码器( two-stream decoder)的输出产生M(该双流解码器对应于box整个区域中对象的二进制掩码和语义标签映射)。

  给定一张图像I和从结构生成器中获得的可操纵layout M,图像生成器输出区域内由B定义的、内容的像素级预测。

  给定一张masked图像I和语义layout M,该模型使用单独的编码路径对对象的视觉样式和语义结构进行编码,并产生被操纵的图像。

  Ablation Study。 为了分析所提方法的有效性,对该方法的几种变体进行了Ablation Study。 首先考虑图像生成器的三个基线:

  从图中可以看到,当把车的边框从一边移动到另一边的时候,模型所产生的车辆外观发生了变化。有趣的是,汽车的形状、方向和外观也会根据周围区域的场景布局和阴影而改变。

  该结果表明,模型在考虑上下文的情况下生成了合适的对象结构和外观。除了生成与周围环境相匹配的对象外,还可以对框架轻松地进行扩展,允许用户直接控制对象样式。

  结果表明,模型成功地合成了具有指定颜色的各种对象,同时保持图像的其他部分不变。

  图像编辑是该模型的关键点之一。通过添加、删除和移动对象边界框来执行交互式图像处理。 结果如下图所示:

  表明该方法生成合理的语义布局和图像,可以平滑地增加原始图像的内容。除了交互式操作之外,还可以通过以数据驱动的方式对图像中的边界框进行采样来自动化操作过程。 结果如下图所示:

  使用ADE20K数据集对卧室图像进行定性实验。 下图展示了了交互式图像处理结果。

  由于室内图像中的对象涉及更多样化的类别和外观,因此生成与场景中的其他组件对齐的适当对象形状和纹理比街道图像更具挑战性。

  本文首发于微信公众号:新智元。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

  (更多精彩内容,关注云掌财经公众号(ID:yunzhangcaijing),或者点击这里下载云掌财经App)

  “云掌财经”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与

  我们联系删除或处理,客服邮箱稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同

http://airgomusic.com/tuxianglijie/1.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有