风华居 > 都市言情 > 神话科技工厂 > 第四十六章 一个新市场

第四十六章 一个新市场(2 / 3)

文字提取的核心技术是R,也就是光学字符识别,R技术的核心关键在于逻辑库里的核心算法。

这个算法覆盖了一定量的词段,所以在扫到这种词段后,它会自动识别并且区分。

而科技工厂的这款输入法,它自带的逻辑能力庞大到了足以碾R的核心数据库,从而让打出的文字具有了不可选取性。

好比一只蚂蚁,平时它搬运的是米粒、叶子这些小物件,忽然有一天让它去搬一辆摩托车,纵使是蚁群中最强大的工蚁对此也束手无策。

这是体量上的碾压,干净利落。

为了验证这一想法,唐毅取出手机,打开了企鹅。

现在企鹅客户端有许多小功能,大家熟悉的有红包、贴图这些,其实企鹅还有一项不太被大家熟知的功能——文字提取。

这项功能的操作方式很简单,长按一张图片,在“发送给好友”下方,就有着“提取图中文字”这一选项了。

实际上,有一些超小型的盗版网站,盗取小说用的就是这项功能。

唐毅打开起点中文网,随意找了一本小说订阅付费章节,截图,提取。

几秒钟后,这段章节截图中的文字全部被提取了出来,没有一个错误。

接着唐毅又呼出科技工厂光幕,将那款未命名的输入法导出到了深蓝上。

深蓝:“?(???)?感觉有什么东西进来了呢....”

唐毅:“???”

很快,输入法安装成功,唐毅创建了一个TT文档,想了想,输入了一首林则徐的古诗。

“休信儿童轻薄语,嗤他赵老送灯台。

力微任重久神疲,再竭衰庸定不支。

*******,*******。”

接着他把这三行诗保存,又用手机对屏幕拍了照,点下拆行提取。

出来的结果是这样的:廾呟t貌肜闽E亐u脌u亐婱勩鰛。

一段乱码!

随后唐毅又试了两次,文字提取后出现的都是乱码!

要知道,企鹅的R词库,在业内甚至是要超过千度和谷歌这两款搜索引擎的。

因为企鹅做的是即时通讯软件,每时每刻进行的信息传递与交汇不计其数,单说汉语词库方面,企鹅在全球当属第一!

而现在,企鹅的R词库,居然拿这款输入法束手无策。

这代表着无论是直接提取,还是rale拆行都无法做到识别文字!

那么,如果这款输入法覆盖到网文领域,对于盗版网站来说,那将会是个毁灭性的打击!

也许有人会说,文字提取不能做,那么雇人打字搬运呗?

这个方式理论上是可行的,毕竟这款输入法的逻辑库还无法影响到现实。

但是.....

单说一家阅文平台,每天在更的小说就不下十万本,其中读者数量可观的至少也有两三万。

整个网文行业数字至少要翻三倍。

好几万本的小说,要雇多少人打字搬运?

我们按一本书每天更新000字这个基数来算一算。

普通打字员每分钟分钟的打字速度大约在00-40之间,一小时大约就是-7千字。

也就是说,这位打字员一小时能搬运一本书的当天更新量。

不考虑疲劳度的情况下,一位打字员每天大约能搬运8本左右。

那么....要搬运整个网文行业的在更新书籍,需要招聘近万人打字!

最新小说: 公府上下宠我如宝,养兄一家后悔了 娘花地儿 星际恶雌觉醒后,七个大佬修罗场 华娱:从和公主北电艺考开始 冰山舔不动,重生换嫁出狱小叔子 妻瘾沉沦 我不是西门庆 房俊房玄龄是哪部小说 太子妃为何不侍寝 普颜被嘲?我靠变美APP封神!