• 7
海藻:打好“组合拳”,做一个净化互联网环境的鉴色工具
统计 阅读时间大约4分钟(1472字)

2015-08-18 海藻:打好“组合拳”,做一个净化互联网环境的鉴色工具

简单来说,这是一款鉴色工具。

【猎云网成都】8月18日报道(文/周丽梅)

海藻,一种生长在海中的藻类,通过自身体内的色素体以及光合作用来合成有机物,海洋世界之所以如此热闹,海藻功不可没。运用到日常生活中,海藻的吸附、净化功能给生活带来了不少的便利。而运用到互联网中,“海藻”想做一个净化互联网环境的监测工具。

一瞬间蹦跶出来的碎碎念

浏览网页时,突然蹦出的弹窗不禁让人心生厌烦,然而这只是互联网不良环境的冰山一角,暴力、色情、淫秽信息充斥着互联网,尽管国家一直在努力“打黄扫非”,网络传播淫秽色情信息的现象仍然屡见不鲜。一方面是广受人们诟病的淫秽信息,另一方面则是不断被挖掘的需求。

海藻的创始人梁栋告诉猎云网,男性之间会互相分享收藏的黄色网站,朋友经常会问他有没有此类网站,梁栋时常帮朋友用磁力链接搜索下载,也就是一次次的过程中就在心里嘀咕,互联网色情信息泛滥,为何不做个鉴色的API,“海藻”便是一瞬间蹦跶出来的碎碎念。

净化互联网环境还需打好组合拳

简单来说,海藻是一款鉴色工具,色情视频、敏感词汇等都在其检测范围,产品已于8月初上线。对海藻而言,目前要检测好淫秽不良信息,关键还是要打好文字鉴色与磁力链接过滤这两个“组合拳”。

文字鉴色:

用户直接将待检测文字(字数无限制)Post给海藻,系统便可自动检测并返回数据。海藻通过采用CRF方法,在常用语义分词上自建了分词模型并训练完善。梁栋说:“基于字符串的分词模型是分不出波多野结衣、小泽玛利亚等词性的,而标准的基于深度学习的分词模型对这些特性词模型也需要很久的时间才能分出,海藻通过自建的分词模型,确保其分词准确率。”

像绿坝这样的净网系统,检测到关键字或敏感词汇则杀,误杀率较高,那海藻又如何降低其检测的误杀率呢?梁栋说:“海藻将用户Post的文章进行TF-IDF,TF-IDF算法能提取出一篇文章中最重要的几个关键词,通过TF、IDF两个维度乘积排序计算文章最重要的关键词,海藻计算词频对词频进行了标准化,采用相对词频来确保文章长短对其算法不影响。”

简而言之,现阶段海藻正在努力构建一个更为专业的“色情分词模型”和TF-IDF关键词配合不良信息库,降低检测的误杀率。

2.pic_hd_meitu_9

磁力链接过滤:

现阶段,海藻的磁力链接检测在技术上分为两方面:一方面,从数据库中直接取得已经标注为色情信息的磁力链接。另一方面,海藻通过后台解析出磁力链接的文件内容,同时辅助以海藻本身的文字鉴色接口对磁力链接文件内容标题进行辅助鉴色。

梁栋说;“海藻磁链鉴色前期大规模采集了百度等公司标注的不良磁链,海藻本身也有提交接口,现在已经转化为自发监测。不管磁链里面是什么内容,海藻都会自动检测,现检测结果多以色情视频和图片为主,以视频量最大。”

另外,海藻还建了一个基于DHT协议的BT资源搜索引擎,可实现24小时不间断的索引资源,目前有微信版和网页版的查询入口,同时还可以采集现有的网路上存在的BT引擎的信息。

具体是怎样操作的呢?梁栋说:“海藻采用API调用的方式,如搜索波多野结衣时,搜索信息结果会充斥一些色情视频,随便点一个就会出现磁力链接与迅雷链接。因为磁链是去中心化的服务器,所以并不能有效的抑制住磁链里面的色情信息传播,使用迅雷等P2P下载工具便可以很方便的下载大规模高清的色情视频。而海藻的磁力链接检测,通过鉴别这个磁力链接检测到磁链是含有不良信息的,系统会自动判定这个磁链是是否为色情链接。”

海藻除了目前已上线的“组合拳”外,之后会在后期上线图片、视频、批量过滤等功能。梁栋说:“海藻以后会尝试和企业进行合作实现盈利,如内容搜索引擎、下载引擎以及一些加速产品等,海藻使用的场景还是很广泛的。”

就如海藻首页上的那句话一般“还互联网一片净土”,虽然听起来很空、大,但梁栋不也一直在为此努力吗。

据猎云网了解,海藻目前尚未获得投资,正在积极洽谈中。

 

产品:海藻
网址:www.haizao.me

b767f7d3d5944963
猎云网:关注创业公司,原创科技博客!【我们帮助任何有梦想的创业团队!创业团队寻求报道请点这里。承诺:完全免费,谨防假冒。】

想了解更多创业创新知识,快添加猎云网微信公众账号:ilieyun

1、猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权。
2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网(微信号:lieyunjingxuan
)字样。
3、猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
4、联系猎云,请加微信号:jinjilei
相关阅读
推荐阅读
{{item.author_display_name}}
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×