IT之家 6 月 22 日消息,当地时间 6 月 21 日,OpenAI 宣布完成了对数据库检索和分析公司 Rockset 的收购。公司将整合 Rockset 的技术和人员,强化各项产品的检索基础设施。
OpenAI 在新闻稿中强调,AI 将有机会改变人们组织、利用自身数据的方式,这便是公司收购 Rockset 的原因。后者是一个 提供“世界级”的数据索引、查询功能 的实时分析数据库。
据悉,Rockset 将使用户、开发人员和企业能够更好地利用自己的数据,并在 使用 AI 产品和构建更智能的应用程序时访问实时信息 。
OpenAI 首席运营官 Brad Lightcap 表示,“Rockset 的基础设施使公司能够 将数据转化为可操作的情报 。我们很高兴能将 Rockset 的基础设施整合到 OpenAI 产品中,从而为我们的客户带来这些好处。”Rockset 首席执行官 Venkat Venkataramani 也表示,公司将通过 为 AI 提供强大的检索功能 ,帮助用户、企业、开发者充分利用其数据。
IT之家查询公开资料得知,Rockset 成立于 2016 年,创始团队具有在 Facebook、雅虎、谷歌、甲骨文等公司积累的大规模数据管理、分布式系统的软件工程经验,提供一种名为“矢量搜索”(vector search)的关键技术。
国内综合实力最强的大数据公司有哪些?
国内综合实力最强的大数据公司有:1、阿里巴巴 阿里巴巴拥有交易数据和信用数据,更多是在搭建数据的流通、收集和分享的底层架构。 2、华为 华为云服务整合了高性能的计算和存储能力,为大数据的挖掘和分析提供专业稳定的IT基础设施平台,近来华为大数据存储实现了统一管理40PB文件系统3、网络 网络的优势体现在海量的数据、沉淀十多年的用户行为数据、自然语言处理能力和深度学习领域的前沿研究。 近来网络正式发布大数据引擎,将在政府、医疗、金融、零售、教育等传统领域率先开展对外合作。 4、浪潮 浪潮互联网大数据采集中心已经采集超过2PB数据,并已建立5大类数据分类处理算法。 近日成功发布海量存储系统的最新代表产品AS。 5、腾讯 腾讯拥有用户关系数据和基于此产生的社交数据,腾讯的思路主要是用数据改进产品,注重QZONE、微信、电商等产品的后端数据打通。 6、 探码科技 探码科技自主研发的DYSON只能分析系统,可以完整的实现大数据的采集、分析、处理。 一直做的国外项目美国最大的律师平台、医生平台和酒店、机票预订平台的数据采集、分析、处理。 将在国内推出一系列面向政务、企业的创新型大数据研究项目与合作,为各大企业提供高端信息技术咨询服务。 7、中兴通讯 中兴通讯推出的“聚焦ICT服务的高效数据中心整体服务解决方案”,可帮助运营商有效解决大数据时代建设IDC面临的大部分问题,提升运营商ICT融合服务能力。 8、神州融 神州融整合了国内权威的第三方征信机构和电商平台等信贷应用场景的征信大数据,通过覆盖信贷全生命周期管理的顶尖风控技术,为微金融机构提供大数据驱动的信贷风控决策服务。 9、中科曙光中科曙光XData大数据一体机可实现任务自动分解,并在多数据模块上并行执行,全面提高了复杂查询条件下的效率。 10、华胜天成胜天成自主研发的大数据产品“i维数据”,颇具创新,近期又与IBM达成战略合作关系,涵盖Linux on Power市场、智慧城市、存储业务、管理服务、咨询与应用管理服务。 国内做大数据的公司依旧分为两类:一类是现在已经有获取大数据能力的公司,如网络、腾讯、阿里巴巴等互联网巨头以及华为、浪潮、中兴等国内领军企业,涵盖了数据采集,数据存储,数据分析,数据可视化以及数据安全等领域;另一类则是初创的大数据公司,他们依赖于大数据工具,针对市场需求,为市场带来创新方案并推动技术发展。 其中大部分的大数据应用还是需要第三方公司提供服务。 值得一提的是,在初创公司当中探码科技是一匹黑马,擅长美国互联网前沿技术,崇尚硅谷创业模式,自主研发有核心技术,曾开发并维护美国拥有上千万用户级的网站,并在网络数据采集,大数据解析方面具有突出的能力,也将在国内推出一系列面向政务、企业的创新型大数据研究项目与合作,为各大企业提供高端信息技术咨询服务。
国内外著名的互联网公司使用hadoop都做了什么?谈HADOOP在大规模数据处理领域的具体应用。
节点数: 15台机器的构成的服务器集群服务器配置: 8核CPU,16G内存,1.4T硬盘容量。 HADOOP在网络:HADOOP主要应用日志分析,同时使用它做一些网页数据库的数据挖掘工作。 节点数:10 - 500个节点。 主要使用了2个集群:一个由1100台节点组成的集群,包括8800核CPU(即每台机器8核),和TB的原始存储(即每台机器12T硬盘)一个有300台节点组成的集群,包括2400核CPU(即每台机器8核),和3000TB的原始存储(即每台机器12T硬盘)由此基础上开发了基于SQL语法的项目:HIVE HADOOP在HULU 主要用于日志存储和分析13台机器构成的集群 (8核PUC,单台机器:4TB硬盘)基于HBASE数据库 HADOOP在TWITTER 使用HADOOP用于存储微博数据,日志文件和许多中间数据使用基于HADOOP构件的Clouderas CDH2系统,存储压缩后的数据文件(LZO格式) HADOOP在雅虎:主要用于支持广告系统及网页搜索机器数,CPU:8核集群机器数: 4000 个节点 (2*4cpu boxes w 4*1TB disk & 16GB RAM)
alltheweb是什么意思?
AllTheWeb是当今成长最快的搜索引擎,目前支持225种文件格式搜索,其数据库已存有49种语言的21亿个Web文件(注1)。 而且以其更新速度快,搜索精度高而受到广泛关注,被认为是Google强有力的竞争对手。 ........................................................................................■ 公司背景Fast总部位于挪威,成立于1997年,其技术起源于挪威科技大学(Norwegian University of Science and Technology)的相关研究开发结果。 公司全称为Fast Search & Transfer (FAST) ASA,而AllTheWeb(ATW)是其对外展示技术的窗口网站。 ........................................................................................■ 搜索应用AllTheWeb属于全文搜索引擎。 目前提供常规搜索、高级搜索和主题搜索功能。 常规搜索支持普通关键词搜索,以及+、-、括号()等逻辑命令符号,分别对应AND、NOT、OR等布尔逻辑命令,并且可使用引号进行精确匹配搜索(此功能也可通过点选搜索框右侧的“Exact Phrase”实现)。 此外,AllTheWeb引擎还支持以下特殊搜索命令:domain 比如“:cn”为限定查找顶级域名后缀带“”(中国)的网页资料。 而“:com”则是查找域名后缀为“”的商业网站资料。 :URLtext 查找链接到某一网页的其他网页。 如“”将搜索指向搜索引擎直通车主页的其他网页。 :text 搜索网页标题中含有某些特定文字的网页。 比如“:搜索引擎”即为查找所有标题中含“搜索引擎”字样的网页。 :text 查询URL中含某些特定文字的网页。 例如搜索引擎直通车某一网页的URL为:“/about/”,那么在输入“:alltheweb”时,就可以直接找到这张网页。 :text 搜索标题或HTML代码<head></head>之间包含某些特定文字的网页 :text 查找域名中包含某些特定文字的网页。 :text 例如“:jpg”可查找包含“”后缀图象文件的网页。 高级搜索提供限定语言、关键词过滤、域名过滤、IP地址过滤和指定网页大小等高级搜索功能,方便用户进行更精确的查询。 尤其值得一提的是AllTheWeb允许按更新时间查询网页,这一功能甚至连Google也是没有的。 主题搜索包括新闻搜索、FTP文件搜索、图象搜索、视频文件搜索、Macromedia Flash搜索和MP3搜索。 .....................................................................................■ 优势及不足Fast/AllTheWeb数据库容量大,更新速度快,搜索精度高,并且据反映可以查到其他搜索引擎都查不到的资料,因此是个非常不错的搜索工具。 但是它也有不足之处。 比如对中文支持不是很好,而且在默认进行任意语言查询时,返回的中文结果有时是乱码,必须手动选择语言才能正常搜索;此外,Fast/AllTheWeb的网页摘要目前还不是动态生成(注2),造成用户无法方便的根据摘要选择最想要的结果等等,这些方面都还有待改进。 .....................................................................................■ 网站登录AllTheWeb不鼓励直接提交网站,它可以跟踪互联网链接自动找到你的网站。 目前ATW数据库中简体中文网页已达4500万,在所有语言中排名第七。 (注1)AllTheWeb数据库容量现已增加到31亿。 (注2)2002年10月,AllTheWeb改为动态摘要。 (注3)2003年4月,AllTheWeb被著名竞价排名服务商Overture收购;2003年7月,Overture又被Yahoo收归旗下。 据传Yahoo将暂时保留AllTheWeb作为独立的搜索品牌,但将放弃其技术,转而使用Yahoo新推出的基于Inktomi技术的搜索引擎。