友情提示:如果本网页打开太慢或显示不完整,请尝试鼠标右键“刷新”本网页!
八二电子书 返回本书目录 加入书签 我的书架 我的书签 TXT全本下载 『收藏到我的浏览器』

互联网2010-第106部分

快捷操作: 按键盘上方向键 ← 或 → 可快速上下翻页 按键盘上的 Enter 键可回到本书目录页 按键盘上方向键 ↑ 可回到本页顶部! 如果本书没有阅读完,想下次继续接着阅读,可使用上方 "收藏到我的浏览器" 功能 和 "加入书签" 功能!



    “还差了哪里?”张晓龙敲击着键盘,心中还是有些不定。

    下午,路舟就开车回到了逸仙大学。

    今年春节前,微讯的隐形人陆铭就一直在筹谋和逸仙做一个合作项目。实际需求和一些雏形自然是路舟所提出来的。

    春节学校放假前,路舟就已经是接到了陆铭的通知,说是项目学校已经批了下来。做法上自然是微讯提供资金预算,再由陆铭带着一些研究生来推进项目的研究。

    这般下来,陆铭也算扎了个根。而现在是节都过完了,路舟手头不那么忙,这也就得来瞧两眼。

    等到了逸仙大学计算机系的实验楼,路舟就往微讯合作项目的b404室走去。

    实验楼路舟还是熟悉的,毕竟数月前梦谷广告甚至还在楼下办公。

    眼看到了地方,门口又是围了一圈人。场景别提多让人熟悉。

    路舟,“”

    “借一借。”

    路舟越过人群进了里头,却发现是没人。他拿出手机就要给陆铭打电话。

    “喂师兄,你人呢?怎么不在实验室。”

    “哦路舟啊。怎么,你在实验室?”

    “对。我看没事我就过来看看,忘了给你提前说。”

    “那你等等,我临时到南校走点手续。我助手小宇是在实验室的,中午他都在最里头折叠床睡觉。”

    路舟起身往实验室后头走去,一个男生在地上睡得正香。

    “”

    “还有你这外头还围了圈人,不用管吧。”

    “都是安排了面试的。小宇醒了让他安排就好。”

    “行。那挂了。”

    挂断电话,路舟也就随便找了个位置坐下,手上是翻看着案上的一些资料。

    他一看,其中一份是关于神经网络的梳理资料,而另一份路舟估摸着像是份考题。

    这第一份资料,是微讯目前数据挖掘和文本理解系统的一部分理论形式说明,路舟早前就看过完整的部分。而这也是微讯目前一些已经实际使用的功能。

    比如针对信息的分类、非结构化知识抽取、热点追踪等。当然,这也会用在一些鉴黄、鉴违规的场景。

    其实路舟吩咐陆铭所做也是一些和人工智能相关的研究。

    当然,硬要说的话,路舟也觉这ai也并没有大部分人所认为的那般神秘。对ai的研究是自计算机诞生不久就有之。

    而现在,机器学习也是已经被不少互联网公司所使用,诸如千度图搜采用卷积神经网络来处理图像、搜狗等输入法产品采用循环神经网络来处理语音识别和文本处理等。

    梦谷之中,如今随着数据多个产品的推进,每天都在产生着大量的数据。这些也成为了喂养供机器学习成长的养料。

    “请问是陆师兄吗?”

    路舟正思考着,听了声音抬眼一看,是三个学生,想来应该是面试的人员。

    “嗯。我是。”路舟点了点头。

    这戴着眼镜略显清秀的学生说道,“师兄好。我是甄臻。”

    她一旁的女生说道,“师兄好,廖文秀。”

    “曹文聪。”

    路舟,“你们好,面试的话再等等。门外的同学也进来等吧。”

    门外的学生一听,一窝蜂都进门坐到座位上等待。位置是不多,没座的也只能站着等。

    “师兄可以给我们讲讲之前你下发的题吗?”甄臻问道。

    随后她又补了一句,“呃,如果面试要涉及就算了。”

    路舟拿起考题看了一眼,“也行。随便讲讲应该是没什么问题。”

    “这个卷说不上多复杂。首先是先针对神经元进行设计,转变成数学运算的问题,那需要先给输入数据增加权重,再之后对结果进行一个偏置,最后则通过一个激活函数来获得一个最终值。常见的激活函数比如可以使用生物学中常用的sigoid作为阈值函数。

    这就是个简单的搭建过程。”

    路舟停了下来,思考片刻又接着说了下去。

    “而在训练这个网络之前,我们可以用均方误差来定义loss值,确定训练之后的预测结果是否达到要求。均方误差我就不多讲了,应该都懂吧。”

    “”

    路舟抬眼看了三人一眼,“那么接下来训练的优化就集中在了将loss值减小。具体来说就是对上述得到的loss值函数形式进行链式求导”

    甄臻忽然就是举手,“师兄,能不能演算一遍。”

    路舟笑了笑,“哪专业的,数学没学好吧。”

    廖文秀,“也不是呢师兄,主要是研究生没选的人工智能方向,思路还没打开。”

    路舟听了也不多说,他也只得拿了笔在一张白纸上给三人演示。

    “事实上loss会包含我刚提到的权重的偏导数。

    这里我们直接链式求导,然后根据loss的定义去求出第一个偏导数,再根据神经元定义的h值再次求导,再配合激活函数sigoid最后得到总的求导公式”

    甄臻,“”

    路舟,“ok,这方法一般被叫做反向传播。经过这个计算后,我们是可以得出对w变化时,loss函数最终的变化曲线。y,我们接下来可以再用一个随机梯度下降sgd的优化算法来进行优化。”

    廖文秀,“”

    路舟,“sgd主要的作用在于权重和偏置值的调整。首先我们定义一个学习率的常数,它将决定整个神经网络的训练速度。这样,我们再逐步调整权重和偏置的过程中,loss也能够不断降低。

    最后loss达到了要求,整个流程也就走完了,模型也就出来了。”

    曹文聪,“”

    路舟见三人表情有些懵逼,感觉是有些尴尬,“额”

    他抹了一把脸,直接唤醒了一旁的电脑,“好吧,这么说有点虚,我直接给你们写个代码样例。hon来示范吧,用nupy的模块。大概呢还是按照我们刚刚的理论基础,先定义几个需要用的函数”

    五分钟后。

    “好了。大概就是这样。”

    三人,“”

    这也忒快了点。

    甄臻有些胆小地又举了手,“师兄。博士和研究生差距有这么大嘛?我怎么一点听不进去”

    路舟听了就乐了,“别。我就一本科生。陆师兄面前我可不敢造次。”

    三人,“?!”

    。

 242。着眼眼前

    陆铭,“想象一下,你现在手里有一把枪,你对面有一个靶子,你需要去命中它。全本小说网;HTTPS://。.COm;”

    他扫了下边一眼,“ok,这个场景大家都能理解。那我们再简化一下,想象一下你是一个游戏角色,你可以在靶子平行的平面上下左右移动。”

    “于是乎,你可以将这里的权重w看成,你自己在平面xy坐标上移动以便确定能正中目标。而偏置值则是考虑上空气阻力,你再进行相应的微调整。”

    陆铭在白板上罗列了一系列的参数,“那最后的损失loss呢?简单,大家都能理解,离靶心越正中间,loss越低,就说明越成功。

    所以其实具象去看,它就变成了一个射击游戏,你不断地给机器喂数据,让它学着怎么去命中靶心。一旦它学会了,那换了另一个靶子,它大概也能做到差不多的水平。

    当然,再具体去说,数据很复杂,情况也多变。这里我们就不细致探讨。”

    路舟也同样在台下,也就当学习一般听着,毕竟陆铭所讲也算有趣。

    陆铭,“其实,你再反向去看这个射击的场景也会很有意思。如果是人去学习射击该是怎么样的过程?首先大脑传达信号,然后手指的肌肉产生反应,进行射击后我们通过眼睛去识别到底打中没有。

    而机器呢,它没有这些东西,所以我们给它一个输入输出函数,输入到机器,它就出来反应,然后它再根据loss识别到底命中没有。

    那都打不中怎么办,那就学到会为止。而事实上,这就是我们常说的人工智能,其实它就是用数学来模拟我们的生物特征。尽管实际应用中,它和统计更加相关。”

    在和陆铭确定了接下来一些微讯的系统研究课题后,路舟也就驱车准备回公司。

    临走之前,路舟却是在陆铭的讲解中突然就冒出了个脑洞来。

    路舟对陆铭问道,“师兄,刚刚你说的射击场景还记得吧。”

    陆铭点头,“嗯。怎么,有什么问题?”

    路舟,“问题是没有。我就在想,你刚整个过程不是一个简化和比喻吗?”

    “对,算是个比喻。”

    路舟,“那么,复杂化的情况你觉得怎么样?”

    陆铭听了一脸好奇,“嗯?”

    路舟说道,“ai和正常编程处理数据的区别,一般我们也都说,是否需要显式编程。”

    陆铭点头,“嗯。”

    路舟摩挲着下巴,“那么我要是给一台机器装上移动的手臂,再接着给它装上摄像头和传感器。那么,这个射击的学习过程是否真的成立。

    嗯。我是指一次编程定义,最后机器真的学习了射击这个动作。”

    陆铭,“这个似乎有些不大不要,真的就是一个例子。”

    路舟摇头,显然陆铭是没有理解他的意思。

    “那这样,这个机器的身体我做得足够复杂。我也不进行显式编程来定义它的动作,而仅仅是在隐式的神经网络中定义好传感器的参数。

    只要机器身体结构足够优秀,它是否有可能出现真正的学习,比如,从零开始蹒跚学步,学习奔跑跳跃,甚至投篮打羽毛球。”

    陆铭这算是听懂了路舟的话,“理论上推动n训练确实可行,但现时命中率是个问题。on的话。”

    路舟也没有理会陆铭,却是继续说了下去,“不不师兄,我是在说真正的人。”

    “单单身体也许你还很难理解,那如果是增加听觉传感,然后再给予它一个喇叭呢?”

    陆铭乐得,他笑了笑,“所以你要让它学习语言?这也算是个很好的课题吧,尽管很困难。”

    路舟依旧摇头,“不不。你回想一下,人从婴儿开始学走路学说话,再到成人形成世界观,这一整个过程!我的意思是创造一台机器去经历这个过程,并且尽量减少显式编程的干预。”

    陆铭恍然大悟,“很有意思。也许这真的会成为一种新人类。”

    路舟伸出手指示意稍等,他陷入了一阵深思之中。

    “还是刚刚的场景,假设我已经创造出了这样两台机器。他们拥有一切和人类类似的身体结构,可以发声音,能够接收五感。

    但我们仅仅定义隐式的神经网络给它们。而一开始它们也不会拥有任何关于这个世界的信息。”

    路舟斟酌了一下语言,“ok。现在它们其中一台开机,接触了整个世界,感受到光线、温度甚至空气。

    这会,刚好我的手机响了,发出了‘lg’的一声。很好,它接收了这个音符,图像识别出了这台手机。

    第二台机器开机,开始如同刚刚那台一样,对,就和婴儿认知这个世界一样。但这时,如果第一台用发声器发出了‘lg’的一声,然后它抬起手指向手机。

    一遍,两遍第二台机器终于‘明白’了意思,也发出了lg一声而后指着那台手机。”

    陆铭听到这,脑子一下炸响。他想到了一个场景某个普通的家庭中,妈妈抱着一个婴儿,嘴里说着“爸爸”,然后一边指向一个男人。

    “你想说,最后这两台机器间通过交流可以认识整个世界,甚至产生自己的语言,乃至于产生意识?又或者你想表达,真正的人工智能需要一副和人类类似的躯体才能实现对世界产生真正所谓想法?”

    路舟笑了笑,“我想,按照这个思路,我们应该将它们变成一个群体,就像人类一样群聚生活,这样它们历史进程应该会天翻地覆。对,通过它们自己的认识去推进它们的历史。”

    陆铭听到这,愈发有些细思极恐。对,路舟所说的每一样都可以找到大量相关的理论支撑,唯一的问题就是更优化的理论以及实现的困难。

    陆铭笑着摇头,“尽管这是个有趣的课题,但我想需要的时间有些长。也许是数十年上百年。”

    路舟笑道,“乐意奉陪。”

    陆铭拍了拍路舟的肩膀,“先这样吧。畅想未来,着眼眼前。”

    路舟,“好。那我就先回去了。这个想法我之后整理一下。就当个业余课题吧。”

    陆铭,“行。”

    路舟这也就走出了实验楼,而脑子里也在思考着问题。

    语言到底是什么?而意识又该是什么?

    。

 243。数据工厂

    路舟走后,陆铭回到了实验室内。全本小说网https://。

    他一边走到后排,吩咐助手将新买的显卡拆出来安装。x280,而大多则是微讯的员工送过来的英伟达最新型号gtx580。

    去年daniresan发表的论文堪称震惊世人。x280来处理数层的神经网络。而在此之前,神经网络的发展是一直苦于cpu的处理速度限制,而即便是要使用gpu,也得为特定的问题制作特定的算法。

    而说来让陆铭觉得巧的是,路舟年前给他提这事还让他颇为头疼。但就仅仅几天前,daniresan新发布的论文提供了一种快速、可参数化的卷积神经网络,这可当真是瞌睡了来枕头。

    当然,对陆铭来讲麻烦事自然也有,比如数据集的问题、实习生的水平问题、最终实际应用的问题。

    而这些都得靠时间一点点解决。

    陆铭想了想就笑了起来,他是没多大心态变化,反而是更加期待这接下来的工作。

    反正天大的事也不是他陆铭顶着,这背靠着小学弟他也就安心研究便是。

    两周后,梦谷云低调上线了众包平台。

    大多数关注到消息的网民第一反应,“?!”

    尽管众包的模式并不算新鲜,但让人感到新鲜的在于众包中的项目。

    梦谷众包分了数个栏目语音转文字、图片转文字、图片标注和分类、脸部照片和视频、脚部照片等。

    前头两项按照提交的量计费,而后两项则是一次计费。

    有眼尖的互联网从业者这就认出了这梦谷众包模仿的是亚马逊众包。须知,著名的iage中就有大量来自亚马逊众包的数据集。

    梦谷云这是要搞事情啊?有没这么牛逼?

    当然,外头怎么猜怎么想是别人的事情。

    一周后。

    此时的路舟正在前往郑市的飞机上。说来,这是他第一次去这城市。

    路舟身边是坐了梦谷推广广南分公司的经理周凯。身后的周达和王强东倒不是必要来的,不过是和周凯相熟一起合作所以也是跟了过来。

    事情的倒也简单,无非还是ai那点事,需要一些下游的公司来处理一些业务。

    在陆铭的实验室研究项目开始运转后,路舟先是安排了微讯向海天瑞声购买了一批语音库供陆铭研究使用。

    海天瑞声是早在98年开始就做着语音标注的业务。路舟所买下的语音数据库,里头的结构可以看成是一段语音对应一段文字。这样的库被广泛地用于训练ai,做语音识别或者转换等领域。

    至于这些库的源头?那自然是人工听取再标注出文字数据。

    而有语音标注,自然就也有图片、视频。这些都被称为数据标注。一个神经网络搭建后,需要用到的训练数据便大多是来自于这里头。

    梦谷云上线众包或者路
返回目录 上一页 下一页 回到顶部 0 0
快捷操作: 按键盘上方向键 ← 或 → 可快速上下翻页 按键盘上的 Enter 键可回到本书目录页 按键盘上方向键 ↑ 可回到本页顶部!
温馨提示: 温看小说的同时发表评论,说出自己的看法和其它小伙伴们分享也不错哦!发表书评还可以获得积分和经验奖励,认真写原创书评 被采纳为精评可以获得大量金币、积分和经验奖励哦!