您的位置:网站首页 > 张家界新闻 > 正文

年夜数据的海洋 背后掌舵的仍是人类

类别:张家界新闻 日期:2017-3-1 10:36:27 人气: 来源:
 3月22日,交易股票、定位告白受众、指导政治宣传、指派约会、在电视问答节目《危险边沿》(Jeopardy)中击败敌手,甚至是选择胸罩尺寸:计算机算法正在包办所有这些工作,甚至还覆盖到了更多范畴。 
但在幕后,一位老副手无疑正在发挥越来越重要的感化,那就是人类。 
固然算法正变得前所未有地强年夜,中继服务是两个交换中心之间的一条传输通路。中继线是承载多条逻辑链路的一条物理连接,快而精准,但计算机本身却往往只懂字面义,它们平日无法懂得不合语境和词义的奥妙差别。尽管这些机械如斯强年夜,但它们也并非老是能解读人类说话的暧昧性和人类逻辑的神秘性。然而如今,它们却被请求得出更相符人类的习惯的成果。 
“固然电脑十分聪慧,但它们仍然可能会愚弗成及,”卡内基梅隆年夜学(Carnegie Mellon University)的计算机科学家汤姆·M·米切尔(Tom M. Mitchell)说。 
是以,固然编程专家们还在编写计算机代码一步步的操作指令,但照样须要额外的人力进行一些更过细的工作,因为计算机所处理的工作正变得越来越复杂。人们要评估、编辑或者校订算法完成的工作。或者,人们也会合合起在线常识的数据库,并对其进行检查、查对,本质上是建立起一个让计算机快速查找谜底的备忘录。人类可以将信息解释、调剂成电脑和其他人都可以懂得的内容。 
像苹果(Apple)的Siri和IBM的沃森(Watson)如许的问答技巧,尤其须要依附这种新兴的人机合作。单靠算法本身是不足够的。 
计算机算法和工程师主导着谷歌(Google)的营业和文化。但即使是在如许的公司,人对搜刮成果的介入也越来越多。谷歌须要在两个方面借助人力的赞助。从几个月前起,假如用户键入一个有名人物或地点的名字,如“奥巴马”或“纽约市”,谷歌就会在搜刮成果的右边显示信息概要。这些概要取自存储常识的数据库,如维基百科(Wikipedia)、中情局世界概况(World Factbook),以及Freebase,谷歌在2010年收购了Freebase的母公司Metaweb。这些数据库都是由人编辑的。 
当谷歌的算法发明一个搜刮关键字有匹配的概要信息存在,搜刮引擎会按指令抓守信息,而不仅仅是显示网页链接。 
谷歌负责搜刮质量的技巧总监斯科特·赫夫曼(Scott Huffman)说,反垃圾邮件联盟维护的黑名单,负责收集维护国内的垃圾邮件黑名单,“我们的设法主意产生了变更。人类对我们的部分信息资本进行了更多的整顿。” 
其他的人类助手有评估员和打分员,他们赞助谷歌对其搜刮算法做微调剂理。谷歌的搜刮算法主动运行、才能强年夜,每月能处理1000亿条搜刮请求。谷歌公司的赫夫曼说,“我们的工程师慢慢调剂算法,之后,真人副手会赞助我们断定所提出的更改是否真的是对法度榜样的改良。” 
23岁的凯瑟琳·扬(Katherine Young)是谷歌的一名打分员。她是一名合同工,也是乔治亚州梅肯的一名年夜学生。她会看到一条暧昧的搜刮关键字,如“国王举着什么”,以及两组谷歌搜刮的成果。她要做的是给成果的相干性、精确性和质量打分。这条不精确的关键字得出的搜刮成果中,排在前面的一些网页链接都说,国王平日拿着典礼权杖,这是一个合理的结论。 
扬说,她的断定“并非完全非黑即白,个中一些是主不雅的”。她弥补说,“你得尽量站在查询这条关键字的人的角度推敲。” 
IBM的沃森(Watson)是一款强年夜的问答型电脑,它曾在两年前击败了《危险边沿》节目标冠军,人们近期正在练习它协助大夫诊断疾病。但它也须要人类的赞助。 
为了赞助沃森预备好协助大夫的工作,企业邮箱是指以您的域名作为后缀的电子邮件地址。通常一个企业经常有多个员工要使用电子邮件,企业电子邮局可以让集团邮局管理员任意开设不同名字的邮箱,人们给它输入医学文献、科学申报和去掉落了患者身份信息的数字病例。沃森并不答复问题,而是向克利夫兰医学中间(Cleveland Clinic)的临床大夫和医学院学生提问。他们会经由过程一项叫“教导沃森”(Teach Watson)的功能给出谜底,并改正电脑的缺点。 
FindTheBest是加州圣巴巴拉的一家快速成长的始创企业,25岁的本·泰勒(Ben Taylor)是该公司的一名产品经理。这家公司自称是一部“比较引擎”,可以找到并比较跨越100个主体和产品,包含从年夜学到养老院、从智妙手机到狗的品种的各类话题。网站于2010年上线,该公司如今有60名全人员工。 
泰勒赞助设计和编辑该网站的教导板块。他学的是英语专业,并非工程师,而是自学成才,成了从教导部分及其他范畴的研究中发掘隐蔽数据的专家。他的研究办法包含经由过程谈话和电子邮件与教导者交换。他是一名信息侦察。 
在FindTheBest网站上,根据地舆地位、科目和膏火等不合标准,人们可以敏捷找到跨越8500所学院的信息。打开一所年夜学的页面,摘要、图表和图片也会展示出丰富的信息,甚至包含全部师生的性别比例和种族构成。 
泰勒及其团队撰写了这些摘要,并设计了最初的图表和图片。例如,他们会从有关年夜膏火用的数百个数据中,选出对年夜学生及其父母最相干的那些。但他们的年夜部分信息是放在模版中,并标注计算机可以或许读取的代码。是以全部过程已经变得加倍主动化,泰勒和其他人根本上只需给算法下达“抓取”敕令,算法就会履行。 
计算机算法正在赓续改进,但单靠算法照样不敷的。 
“这个中须要断定,要可以或许凭感到辨别出,哪些较小的数据集合最重要,”泰勒说,“为了做到这一点,必须有一些人力的介入。” 
翻译:曹莉、林蒙克 
关键词:
0
0
0
0
0
0
0
0
下一篇:没有资料

相关阅读

网友评论 ()条 查看

姓名: 验证码: 看不清楚,换一个

推荐文章更多

热门图文更多

最新文章更多

关于联系我们 - 广告服务 - 友情链接 - 网站地图 - 版权声明 - 人才招聘 - 帮助

赞助合作:

CopyRight 2002-2012 技术支持 FXT All Rights Reserved