当前位置:主页 > 建站知识 > APP开发 >

今日头条升级灵犬反低俗助手 新增图片识别功效

发布时间:2023-05-19 05:20   浏览次数:次   作者:开云app官网下载入口
本文摘要:7月30日,今日头条宣布正式推出新版灵犬反低俗助手(以下简称“灵犬”),同时支持图片和文本识别。这是时隔半年后,“灵犬”的又一次重要升级。“灵犬”脱胎于今日头条反低俗模型,是一款检测内容康健度的辅助小工具,致力于攻击低俗低质内容,净化网络空间。 用户现在可以在今日头条内,搜索“灵犬”举行试用。当天下午,一场名为“算法如何反低俗”的相同会在字节跳动总部举行。字节跳感人工智能实验室总监王长虎现场先容了“灵犬”背后的技术原理。

开云app官网下载入口

7月30日,今日头条宣布正式推出新版灵犬反低俗助手(以下简称“灵犬”),同时支持图片和文本识别。这是时隔半年后,“灵犬”的又一次重要升级。“灵犬”脱胎于今日头条反低俗模型,是一款检测内容康健度的辅助小工具,致力于攻击低俗低质内容,净化网络空间。

用户现在可以在今日头条内,搜索“灵犬”举行试用。当天下午,一场名为“算法如何反低俗”的相同会在字节跳动总部举行。字节跳感人工智能实验室总监王长虎现场先容了“灵犬”背后的技术原理。

据相识,在文本识别领域,新版“灵犬”同时应用了“Bert”和半监视技术,训练数据集包罗920万个样本,准确率提升至91%。在图片识别领域,“灵犬”接纳深度学习作为解决方案,在数据、模型、盘算力等方面均做了针对性优化。

“灵犬”使用人次凌驾300万信息大爆炸时代,攻击低俗低质内容,是当前全球信息平台都面临的难题,不管是外洋的Facebook、Google,还是海内的微信、今日头条,都在寻求解决方案。反低俗无法单一地依靠技术某人工解决。王长虎表现,低俗的界说相对笼统,很难完全准确地界说出来,这项事情纵然对人来说也不容易,交给机械做更难实现,而在当前内容创作和消费海量增长的趋势下,纯靠人工解决,效率低,无法有效满足用户需求。

图注:字节跳感人工智能实验室总监王长虎分享“灵犬”背后的技术原理今日头条是海内反低俗的先行者,而“灵犬”是今日头条反低俗系统的一个简化版本。据相识,2012年以来,今日头条内部搭建了反色情、反低俗、反标题党、反虚假信息、反低质等数百个模型,并投入近万人专业审核团队。“作为行业领先者,在内容宁静上,今日头条一直用最高的尺度要求自己,”王长虎说,“灵犬是一个开放的反低俗窗口,我们希望通过灵犬,吸收社会各界对反低俗的意见和建议。”新版“灵犬”重点拓展了反低俗识别类型和模型能力,现已笼罩图片识别(反色情低俗、反血腥暴力)和文本识别(反色情低俗、反暴力诅咒、反标题党)。

后续还将支持语音识别和视频识别。此前一年时间内,“灵犬”已陆续完成两次迭代。2018年3月28日,今日头条首次上线“灵犬”,支持检测文字和文章链接。

2018年5月16日,“灵犬”完成服务能力升级,增加反色情漫笔本模型和反诅咒模型,将准确率从73%提升至82%。2019年2月20日,“灵犬2.0”正式上线,除了反色情低俗模型,加入反暴力诅咒和反标题党模型,笼罩了主要的低俗低质内容类型,整体识别准确率靠近85%。

停止2019年6月,灵犬反低俗助手的使用人次已经凌驾了300万。用户只需要在“灵犬”内输入一段文字或文章链接,“灵犬”就可以资助其检测内容康健指数,返回一个判定效果。

对于用户输入的内容,“灵犬”会先举行提取、分词和语义识别,然后凭据相关规则,输出对应的分数、评级和结论。这一切都在短短几秒内完成。

图片和图片链接检测同理,用户在“灵犬”内上传图片或图片链接,即可快速获取判定效果。“灵犬”背后的技术迭代据王长虎先容,“灵犬”背后的文天职类模型,已经经由了三次迭代。每个新版底细对于旧版本,在技术和数据集层面,都有一个显着的跃升。

第一代“灵犬”,应用的是“词向量”和“CNN(卷积神经网络)”技术,训练数据集包罗350万数据样本,对随机样本的预测准确率到达79%。第二代“灵犬”,应用的是“LSTM(是非期影象)”和“Attention”技术,训练数据集包罗840万数据样本,准确率提升至85%。新版“灵犬”同时应用了“Bert”和半监视技术,而且在此基础上使用了专门的中文语料,在不牺牲效果的情况调整了模型结构,使得盘算效率能到达实用水平。

“Bert”是当前最先进的自然语言处置惩罚技术,是该领域近年来重大希望的集大成者。这项技术在常见的阅读明白、语义蕴含、问答、相关性等各项任务上,大幅提高了性能。

这一代“灵犬”训练数据集总量是1.2个T,相当于20倍百度百科或100倍维基百科的数据总量,包罗920万个样本,准确率提升至91%。差别于文本识别,图片识此外技术难点主要在于三方面:非平衡、类内方差大和不行穷举,即,低俗图片占整体图片内容的比例较低,低俗图片的种类富厚、繁杂,组成低俗图片的特征千差万别。

对此,“灵犬”运用的解决方案,是深度学习。“我们划分在数据、模型、盘算力等方面做了许多优化。

”王长虎说。数据层面,“灵犬”已累积上千万级此外训练数据。模型层面,“灵犬”针对许多难题样本做了模型结构调优,实验解决多尺寸、多尺度、小目的等庞大问题。

盘算力层面,“灵犬”使用漫衍式训练算法以及GPU训练集群,加速模型的训练和调试。一些技术难以搞定的问题,现阶段另有赖于人工判断。好比技术暂时难以制定尺度的案例:世界名画中经常泛起裸体女子,如果完全交由机械判断,机械通过识别画中人物的皮肤裸露面积,就会认为这幅画是色情低俗的;而某些拍摄芭蕾舞的图片,以机械的视角来看,其实类似于裙底偷拍。此外是因为使用场景、人群差别而导致尺度变更的案例:亵服和亵服模特泛起在购物平台上,会被默认为正常,但如果频繁泛起在新闻资讯平台上,就可能被认为有低俗嫌疑;正常的热舞内容,提供应成年人看,切合通例尺度,但如果开启了青少年模式,这些内容就不应该泛起。

王长虎说,针对低俗判断问题的庞大性和差别判断方式的局限性,一方面需要不停进化技术模型,一方面需要有效联合技术和人工判断两种方式。当前,“灵犬”建设了比力完善的模型迭代系统。通过“数据收集—数据标注—数据清洗—模型训练—模型评估—badcase分析”这一套完整的流程,连续做优。


本文关键词:今日,头条,升级,灵犬,反,低俗,开云app官网下载入口,助手,新增,图片

本文来源:开云app官网下载入口-www.whydjt.com