目前有广告位出租,投放广告请点击QQ给我发消息徐州新闻网QQ交流群1
设为首页 | 收藏本站 | 投稿请先【登录】【注册】
国际新闻 国内新闻
社会新闻 省内新闻
徐州新闻 区县新闻
乡镇新闻 行业新闻
法制聚焦 移动互联
大城小事 节能环保
民生焦点 财经产业
三农资讯 百姓生活
医疗健康 综合教育
娱乐快讯 汽车文化
徐州风景 关于我们
广告投放 隐私保护
今天:
您所在的位置:主页 > 移动互联 >

论文终于公布!腾讯开源最大规模多标签图像数据集,刷新行业数据集基准

时间: 2019-01-11 13:16 作者:搜索 来源:互联网 点击:

  新智元推荐

  腾讯 AI Lab 公布图像数据集 ML-Images,包含了 1800 万图像和 1.1 万多种常见物体类别,在业内已公开的多标签图像数据集中规模最大,足以满足一般科研机构及中小企业的使用场景。

  此外,腾讯 AI Lab 还提供基于 ML-Images 训练得到的深度残差网络 ResNet-101。该模型具有优异的视觉表示能力和泛化性能,在当前业内同类模型中精度最高,将为包括图像、视频等在内的视觉任务提供强大支撑,并助力图像分类、物体检测、物体跟踪、语义分割等技术水平的提升。

  题目: Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

  【摘要】

  在现有的视觉表示学习任务中,深度卷积神经网络(CNN)通常是针对带有单个标签的图像进行训练的,例如 ImageNet。然而,单个标签无法描述一幅图像的所有重要内容,一些有用的视觉信息在训练过程中可能会被浪费。在这项工作中,我们建议对带有多个标签的图像进行训练,以提高训练后的 CNN 模型的视觉表示质量。

  为此,我们构建了一个大规模的多标签图像数据库,其中包含 18000000 个图像和 11000 个类别,我们称之为 Tencent ML-Images。我们基于大规模分布式深度学习框架,即 TFplus,在 Tencent ML-Images 上高效训练 ResNet-101 多标签输出模型,共 60 个 epoch,耗时 90 小时。 通过 ImageNet 和 Caltech-256 上的单标签图像分类、PASCAL VOC 2007 上的对象检测、PASCAL VOC 2012 上的语义分割三个迁移学习任务,验证了 Tencent ML-Images checkpoint 的视觉表示质量良好。

  腾讯 ML-Images 数据库,ResNet-101 的 checkpoint 以及所有训练代码已在 https://github.com/Tencent/tencent-ml-images 上发布。它有望推动研究领域和工业界的其他视觉任务的发展。

  论文地址:

  https://arxiv.org/abs/1901.01703

  作者简介

  第一作者是吴保元,现在是腾讯 AI Lab 的高级研究员,2014 年 8 月至 2016 年 11 月在 KAUST 进行博士后学习,与 Bernard Ghanem 教授一起工作。2014 年 6 月获得中国科学院自动化研究所模式识别国家重点实验室博士学位,导师为胡包钢教授。作者研究兴趣包括机器学习、计算机视觉和优化,包括图像标注、弱 / 无监督学习、结构化预测、概率图模型、视频处理和整数规划。

  https://sites.google.com/site/baoyuanwu2015/home

  其他作者包括樊艳波、张勇也都是博士毕业于中科院自动化研究所,师从胡包钢教授。

  文章简介

  这项工作在新建的多标签图像数据库(称为 Tencent ML-Images)上展示了大规模的视觉表示学习。文章从讨论以下两个问题开始。

  为什么我们需要大规模的图像数据库?深度学习一直处于长期低谷,直到 2012 年,AlexNet 在 ILSVRC2012 挑战的单标签图像分类任务中取得了令人惊讶的成绩。深度神经网络的潜力是通过大规模的图像数据库释放出来的,即 ImageNet-ILSVRC2012 。此外,对于许多视觉任务,如目标检测和语义分割,获取训练数据的成本是非常高的。由于训练数据不足,需要在其他大型数据库上预先训练好的视觉呈现良好的 checkpoint 作为初始化,用于其他视觉任务 (如针对单标签图像分类的 ImageNet-ILSVRC2012)。

  为什么我们需要多标签图像数据库?由于在大多数自然图像中存在多个对象,单个标注可能会遗漏一些有用的信息,从而误导 CNN 的训练。例如,同时包含牛和草的两个视觉上相似的图像可能分别被标注为牛和草。合理的方法是 “告诉”CNN 模型这两幅图像同时包含牛和草。

  这项工作的主要贡献有四个方面:

  建立了一个包含一千八百万张图像和一万一千个类别的多标签图像数据库,被称为 Tencent ML-Images,这是迄今为止最大的公开可用的多标签图像数据库。

  利用大规模分布式深度学习框架,在 Tencent ML-Images 上有效地训练 ResNet-101 模型。此外,还设计了一种新的损失函数来缓解大规模多标签数据库中严重的类失衡问题。

  我们通过迁移学习三种不同的视觉任务,证实了 Tencent ML-Images 和其预训练的检查点有着比较好的质量。

(责任编辑:东方)

    免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

省内新闻

更多>>

社会新闻

更多>>

最新文章

推荐文章

广告赞助

徐州新闻网广告投放隐私保护网站地图关于我们wap手机版 徐州新闻网

工信部备案/许可证编号为:苏ICP备15061392号-2 未经允许,请勿将内容传播或复制。广告服务-在线投稿

徐州新闻网(www.99mtw.com)徐州新闻网版权所有