人工智能开发工程师-2017年Python开发工程师岗位职责及岗位要求(招贤)
Python开发工程师 岗位职责
1、负责多个垂直频道的数据抓取工作、研究各种网站、网页、链接的形态,发现它们的特点和规律;
2、对抓取的数据进行除重,匹配,过滤等处理;
3、网络爬虫工具的设计、开发及优化;
4、网页信息抽取等核心算法的研究和优化;
5、熟悉网络爬虫原理,设计,实现
岗位要求
1、熟练Python语言,有go、java等其他语言开发经验者优先,有扎实的数据结构和算法功底;
2、理解http,熟悉html, DOM, xpath, scrapy等,精通网页抓取原理及技术、正则表达式,能从结构化的和非结构化的数据中获取信息;
3、熟悉爬虫、种子、去重、提取、过滤、分发、DNS cache、异步处理等概念和过程;
4、熟悉linux开发环境,熟练使用Mysql,熟悉Nosql数据库如mongoDB,Redis等;
5、了解Hadoop、Spark等大数据框架和流处理技术者优先。
数据分析工程师 岗位职责
岗位职责:
1、进行业务和企业经营行为分析,梳理业务规律和业务需求;
2、将业务需求转化为数据需求,发现数据应用场景,梳理指标体系;
3、使用合适的数据分析工具进行数据分析和模型设计;
4、提出基于数据的结果和分析建议,根据分析结果进行行业研究、评估和预测;
5、编写数据分析报告;
6、完成领导交办的其他工作。
岗位要求
1、本科以上学历,计算机、数学、统计学等相关专业;
2、深刻理解大数据分析原理及相关应用;
3、熟练掌握主流数据库技术;
4、精通数据分析、挖掘工具与方法,如SAS、R、Python、EXCEL等;
5、敏锐的数据观察和分析能力,及时发现和分析其中隐含的变化和问题并给出建议;
6、良好的沟通能力和团队精神,较强的学习能力,能承担一定的工作压力;
人工智能工程师 岗位职责
1、负责人工智能开放平台的开发建设;
2、负责深度学习算法研究、实现和优化,包括但不限于自然语言处理、图像处理与识别等方向。
3、设计实现高性能的服务系统,处理海量数据;
4、负责模型训练与效果评估。
5、支持公司相关产品的深度学习模块研发。
6、跟踪及研究深度学习和机器学习的前沿技术。
岗位要求
1、深度学习、自然语言处理、图像处理、模式识别相关专业背景硕士及以上学历。
2、熟悉GPU编程、熟悉GPU算法优化者优先。
3、熟悉机器学习基本理论,熟悉分类、回归、降维、ensemble等,熟悉scikit-learn等机器学习库优先。
4、熟悉基本的机器学习算法(监督学习、无监督学习、特征提取等);
5、熟悉基本的数据清理办法(PCA,归一化,数据平衡处理等);
6、了解常用的自然语言模型(word2vec, n-gram,seq2seq等);
7、熟悉机器学习相关的python库(pandas, numpy, sklearn);
8、熟悉 tensorflow, keras, pytorch 中的一种或者多种;
9、有分布式计算及数据处理的经验(hadoop,spark等)活跃的github贡献者。
人工智能的技术应用主要是在以下几个方面:
自然语言处理(包括语音和语义识别、自动翻译)、计算机视觉(图像识别)、知识表示、自动推理(包括规划和决策)、机器学习和机器人学。按照技术类别来分,可以分成感知输入和学习与训练两种。计算机通过语音识别、图像识别、读取知识库、人机交互、物理传感等方式,获得音视频的感知输入,然后从大数据中进行学习,得到一个有决策和创造能力的大脑。
(提炼人类语言规律,数据统计,初学者:以人为师)
AlphaGo中有两个深度神经网络,
Value Networks(价值网络)、 Policy Networks(策略网络)
一、驱动人工智能发展的先决条件
物联网:机器感知
大规模并发计算:庞大神经网络,CPU计算集中数据处理
大数据:海量数据作为基础,优化计算机处理性能
深度学习算法:图像识别(卷积神经网络)
二、IT巨头在人工智能上的投入
IBM:DeepQA,读取百万文本数据;
Watson商业计算平台:医疗行业中,病人病例,为医生提供参考
金融领域:风险、收益
硬件:人脑模拟芯片SyNAPSE
Google:DeepMind,也就是推出AlphaGo项目的公司
云平台:TensorFlow数据库
产业布局:谷歌无人驾驶汽车、基于Android智能手机的各种app应用与插件、智能家居(以收购的NEST为基础)、VR生态、图像识别(以收购的Jetpac为基础)。
Facebook:Facebook成立了人工智能实验室
AI技术:视觉DeepFace技术(收购)、语音识别(收购Mobile technologies)、自然语义(收购Wit.AI)、神经网络训练+机器学习
云平台:开发者平台Parse、Torch开源深度学习模块
硬件: Big Sur(基于GPU的用于训练神经网络的硬件系统人工智能开发工程师,开源)
产业布局:语音助手Moneypenny、VR生态(收购Oculus Rift、Sourroud360全景摄像机促进内容发展)
百度
2014年5月,被称为“谷歌大脑之父”的AndrewNG(吴恩达)加盟百度,担任首席科学家,百度正式发布整合了大数据、百度地图LBS的智慧商业平台,旨在更好在移动互联网时代为各行业提供大数据解决方案。
AI技术:语音识别Deep Speech、视觉识别“智能读图”、自然语言与智能语义、自动驾驶、深度学习
解决方案:基于智能手机的语音服务系统(度秘)
开发者云平台: 百度云
产业布局:汽车领域无人驾驶、基于智能手机的各种app应用与插件。
Microsoft
AI技术:语音、视觉、自然语言、分布式机器学习
云平台:Microsoft Azure(存储、计算、数据库、live、媒体功能)、分布式机器学习工具包DMTK(自然语言处理,推荐引擎,模式识别,计算机视觉以及预测建模等)、人工智能平台Project Malmo
产业布局:语言助手(微软小冰、Cortana小娜、Tay)、VR(Hololens全息眼镜)
Apple
AI技术:自然语言(收购Vocal IQ)、收购可视化地图MapsenseGPS公司 Coherent Navigation
产业布局:汽车领域无人驾驶、SIRI语音助手
Amazon
云平台:Amazon Web Services(存储、计算、模式识别和预测,其中视频识别API 收购Orbeus)
阿里
云平台(阿里云IaaS,可视化人工智能平台DTPAI)
产业布局 :智能家具、物联网
腾讯
AI技术:视觉、智能计算与搜索实验室
产业布局:智能硬件
三、人工智能的生态
无论是在专业还是通用领域,人工智能的企业布局都将围绕着基础层、技术层和应用层三个层次的基本架构。
李开复
1.替代简单重复劳动,创造商业价值!(人的创造力目前是无法替代的,但简单的可以)。
2.要聪明的找到容错的用户界面(这句最经典)。
3.让用户提供自然的大数据(通过娱乐app收集更多原始数据)。
4.关注局限领域(找到合适的垂直领域)。
人工智能无处不在
一、二级市场的资本涌入带动了人工智能产业落地。在应用层玩家领域,人工智能关联的最为广泛:机器人、无人机、智能家居和虚拟个人助理等。
国内多数初创公司一般在各自应用领域拥有优势技术资源,针对某一细分领域单点突破,深度挖掘,通过技术的不断提升来获取市场份额。其中,旷视科技以深度学习、计算机视觉为核心技术,不断扩展其在视觉识别及深度学习领域优势,现以累积提供超过150亿次数据服务,成为目前世界最大智能数据提供方之一。
在健康医疗领域,人工智能应用已经非常广泛,从应用场景来看主要分成了虚拟助理、医学影像、药物挖掘、营养学、生物技术、急救室/医院管理、健康管理、精神健康、可穿戴设备、风险管理和病理学共11个领域;大数医达和康夫子就是专注医疗健康类的专用虚拟助理研发企业。
在智能投顾领域,最简单的逻辑是借助人工智能技术和大数据分析,机器人结合投资者的财务状况、风险偏好、理财目标等,通过已搭建的数据模型和后台算法为投资者提供量身定制的资产投资组合建议。国内陆续出现了弥财、蓝海财富、百度金融、积木盒子等第三方智能投顾平台,以及京东智投、企名片、同花顺为代表的互联网公司研发的智能投顾平台。
在智能教育领域,如学霸君等,通过拍照搜题进行在线答疑自动批改作业等,借助智能图像识别技术,学生遇到难题时只需要用手机拍照上传到云端,系统在一到两秒内就可以反馈出答案和解题思路;另外,科大讯飞、清睿教育开发出的语音测评软件,能够很快对发音进行测评并指出发音不准的地方。
在智能法务领域,最直接的应用如智能法务助手,“合同家”通过合同工具积累数据,为企业提供基于大数据和人工智能的法务解决方案。
在智能驾驶领域,当属目前最为火热的应用领域,如驭势科技、Momenta、图森互联等通过人工智能技术解放人力、降低交通事故率等,相信未来智能驾驶会让我们的出行变得更加安全、智能化。
当然,人工智能产业的变革与推动也离不开媒体的助力,如:新智元首创的“人工智能社群三体模式”(人工智能领域的社交资讯平台、专家智库平台和产业基金),不仅如实的记录了行业的发展,更为行业提供了众多前瞻性的建议,其人工智能专家社群,更加速了行业的发展与产业落地。
Python前端开发工程师
目前Python 在学术领域非常受欢迎,尤其是非计算机专业。
这门语言的前景会非常好。它语法简单易读,消除了普通人对于“编程”这一行为的恐惧,让越来越多的非程序员开始通过编写简单的程序,让自己的生活、工作和学习更美好。
这部分人可能永远也不会研究底层,不会关心运行效率,甚至不会学习 Python 之外的语言。他们只需要一门能让他们快速上手和计算机“交谈”的语言。这是 Python 最大的意义。
更高——开发效率更高,这一两年Python在业内大火, 我一直思考原因是为什么,除了云计算帮Python带了一波节奏外,还有没有其它原因呢?必然有,我认为还有一个主要原因就是近几点互联网创业热情高涨,千千万万程序员听了各种创业鸡汤,辞掉了大公司安稳工作玩创业,14,15年的中关村创业大街那叫一个热闹,总理都去过好几次,我自己当时也和朋友尝试搞过一两个项目,当时大家都急着要把东西快速开发出来去拿融资,那时的投资人脑子也是热呀,大批大批的钱投给各创业公司,供他们各种现金补贴抢用户。 时间就是金钱,大家恨不得今天刚有了idea,明天产品就能上线,产品晚上线一个月,可能战争就跟你没关系了。 因此,一门开发效率极高的语言就此进入开发者眼帘,开发者们因为犹如神助,开发效率不知道比C,Java高到那里去了,众多创业公司首选 Python做为开发语言,虽然那些创业公司大多都 失败了,但是催生起了Python在国内大热的前戏。
更快——运行速度更快,显然Python并不是一门快语言,慢也是被很多程序员诟病Python的主要原因,但最近几年PyPy解释器在不断的提高着Python的运行速度 ,通过PyPy运行的程序,在某些场景下速度直接逼近C语言,相信再过几年,Python的运行速度将不再是问题。另外,由于近些CPU处理速度的快速发展,编程语言本身的快慢在大多数业务场景下已不再被做为主要考量(除了对响应速度极为敏感的业务,如搜素)。
更强——功能更强,这是导致Python大火的另一个主要原因之一,Python的标准库和第三方库强大到你无法想象,无论你想从事任何方向的技术编程,你几乎都能找到相应的库支持,以下仅举几个栗子:
WEB开发——最火的Python web框架Django, 支持异步高并发的Tornado框架,短小精悍的flask,bottle, Django官方的标语把Django定义为the framework for perfectionist with deadlines(大意是一个为完全主义者开发的高效率web框架)网络编程——支持高并发的Twisted网络框架, py3引入的asyncio使异步编程变的非常简单爬虫——爬虫领域,Python几乎是霸主地位,Scrapy\Request\BeautifuSoap\urllib等,想爬啥就爬啥云计算——目前最火最知名的云计算框架就是OpenStack,Python现在的火,很大一部分就是因为云计算人工智能——谁会成为AI 和大数据时代的第一开发语言?这本已是一个不需要争论的问题。如果说三年前,Matlab、Scala、R、Java 和 Python还各有机会,局面尚且不清楚,那么三年之后,趋势已经非常明确了,特别是前两天 Facebook 开源了 PyTorch 之后人工智能开发工程师,Python 作为 AI 时代头牌语言的位置基本确立,未来的悬念仅仅是谁能坐稳第二把交椅。
自动化运维——问问中国的每个运维人员,运维人员必须会的语言是什么?10个人相信会给你一个相同的答案,它的名字叫Python金融分析——我个人之前在金融行业,10年的时候,我们公司写的好多分析程序、高频交易软件就是用的Python,到目前,Python是金融分析、量化交易领域里用的最多的语言科学运算—— 你知道么,97年开始,NASA就在大量使用Python在进行各种复杂的科学运算,随着NumPy, SciPy, Matplotlib, Enthought librarys等众多程序库的开发,使的Python越来越适合于做科学计算、绘制高质量的2D和3D图像。和科学计算领域最流行的商业软件Matlab相比,Python是一门通用的程序设计语言,比Matlab所采用的脚本语言的应用范围更广泛游戏开发——在网络游戏开发中Python也有很多应用。相比Lua or C++,Python 比 Lua 有更高阶的抽象能力,可以用更少的代码描述游戏业务逻辑,与 Lua 相比,Python 更适合作为一种 Host 语言,即程序的入口点是在 Python 那一端会比较好,然后用 C/C++ 在非常必要的时候写一些扩展。Python 非常适合编写 1 万行以上的项目,而且能够很好地把网游项目的规模控制在 10 万行代码以内。另外据我所知,知名的游戏就是用Python写的
列举这么多之后,你会发现,Python几乎在上述每个领域都做的非常优秀,这是一门真正意义上的全栈语言,即使目前世界上使用最广泛的Java语言,在很多方面与Python相比也逊色很多!我目前还看不到有哪门语言,能同时在在如此多的领域能做出这些成绩。
数据分析
通过pandas,你可能已经意识到,python真实一个神奇的东西。
但除了pandas,python还有其他优秀的数据分析、数据挖掘的库比如numpy、scipy、scikit-learn,那你可以去找一些教程来看看如何通过这些库实现数据分析,先搞清楚那些最常用的方法,并结合实际的数据集进行练习。那些并不常用的方法,可以等到在遇到具体的问题的时候再去查阅相关的文档。
比如利用numpy进行数组的计算,利用scipy实现不同的假设检验,利用scikit-learn实现完整的数据分析建模……这些网上有很多可以学习的教程,
当然前期并不建议你去追求各种高深的技巧,你更需要去熟悉最基本的用法,毕竟基本的才是最常用到的,常用的方法已经可以帮助你解决绝大部分初级阶段的数据分析问题了。
比如利用回归分析(线性回归、逻辑回归),你就可以去实现很多的预测型的数据分析,对未来的数据进行预测。
一般来说数据分析的流程:
定义问题–>数据采集—>数据清理–>数据建模—>分析并输出结论
为什么要做数据分析师:
在通信、互联网、金融等这些行业每天产生巨大的数据量(长期更是积累了大量丰富的数据,比如客户交易数据等等),据说到2020年,全球每年产生的数据量达到3500万亿GB;海量的历史数据是否有价值,是否可以利用为领导决策提供参考依据?随着软件工具、数据库技术、各种硬件设备的飞快发展,使得我们分析海量数据成为可能。
而数据分析也越来越受到领导层的重视,借助报表告诉用户什么已经发生了,借助OLAP和可视化工具等分析工具告诉用户为什么发生了,通过dashboard监控告诉用户现在在发生什么,通过预报告诉用户什么可能会发生。数据分析会从海量数据中提取、挖掘对业务发展有价值的、潜在的知识,找出趋势,为决策层的提供有力依据,为产品或服务发展方向起到积极作用,有力推动企业内部的科学化、信息化管理。
我们举两个通过数据分析获得成功的例子:(1) Facebook广告与微博、SNS等网络社区的用户相联系,通过先进的数据挖掘与分析技术,为广告商提供更为精准定位的服务,该精准广告模式收到广大广告商的热捧,根据市场调研机构eMarketer的数据,Facebook年营收额超过20亿美元,成为美国最大的在线显示广告提供商。
(2) Hitwise发布会上,亚太区负责人John举例说明: 亚马逊30%的销售是来自其系统自动的产品推荐,通过客户分类,测试统计,行为建模,投放优化四步,运营客户的行为数据带来竞争优势。
此外,还有好多好多,数据分析,在营销、金融、互联网等方面应用是非常广泛的:比如在营销领域,有数据库营销,精准营销,RFM分析,客户分群,销量预测等等;在金融上预测股价及其波动,套利模型等等;在互联网电子商务上面,百度的精准广告,淘宝的数据魔方等等。类似成功的案例会越来越多,以至于数据分析师也越来越受到重视。
然而,现实却是另一种情况。我们来看一个来自微博上的信息:在美国目前面临14万~19万具有数据分析和管理能力的专业人员,以及150万具有理解和决策能力(基于对海量数据的研究)的管理人员和分析人员的人才短缺。而在中国,受过专业训练并有经验的数据分析人才,未来三年,分析能力人才供需缺口将逐渐放大,高级分析人才难寻。也就是说,数据分析的需求在不断增长,然而合格的为企业做分析决策的数据分析师却寥寥无几。好多人想做数据分析却不知道如何入手,要么不懂得如何清洗数据,直接把数据拿来就用;要么乱套模型,分析的头头是道,其实完全不是那么回事。