职业IT人-IT人生活圈

 找回密码
 成为会员
搜索
查看: 233|回复: 9

海量数据处理专题(一)——面试百度,腾讯,雅虎。。的利器

[复制链接]
gz-vps 发表于 2011-8-18 10:03 | 显示全部楼层 |阅读模式
  
  大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。
  下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。


  本贴从解决这类问题的方法入手,开辟一系列专题来解决海量数据问题。拟包含 以下几个方面。
Bloom Filter
Hash
Bit-Map

双层桶划分
数据库索引
倒排索引(Inverted Index)
外排序
Trie树
MapReduce
  在这些解决方案之上,再借助一定的例子来剖析海量数据处理问题的解决方案。

其实在坛子里里面好多类似的面试题都可以用这样的方法来解答,比如百度的TopK热门查询问题,某日IP最多访问问题。
把这类问题研究好了,面试像百度,腾讯这样的公司就完全没问题了!!!

只学java 发表于 2011-8-18 10:03 | 显示全部楼层
您正在访问的网站被限制访问,限制的原因是:Websense 类别“禁止员工访问-blog”已筛选。

能否贴出来???

fl 发表于 2011-8-18 10:03 | 显示全部楼层
ouchxp 写道
您正在访问的网站被限制访问,限制的原因是:Websense 类别“禁止员工访问-blog”已筛选。

能否贴出来???


我现在也访问不了,我的百度空间有备份
<>海量数据处理专题(二)——Bloom Filter:http://hi.baidu.com/08%B5%BD%B1%B1%BE%A9/blog/item/c9de6e542d1576113b293538.html
海量数据处理专题(三)——Hash:http://hi.baidu.com/08%B5%BD%B1%B1%BE%A9/blog/item/9daf7b25091fcc6e34a80feb.html
海量数据处理专题(四)——Bit-map:http://hi.baidu.com/08%B5%BD%B1%B1%BE%A9/blog/item/abd9363f6cbb34cc7d1e71f4.html

走就走吧 发表于 2011-8-18 10:03 | 显示全部楼层
pkuoliver 写道
ouchxp 写道
您正在访问的网站被限制访问,限制的原因是:Websense 类别“禁止员工访问-blog”已筛选。

能否贴出来???


我现在也访问不了,我的百度空间有备份
<>海量数据处理专题(二)——Bloom Filter:http://hi.baidu.com/08%B5%BD%B1%B1%BE%A9/blog/item/c9de6e542d1576113b293538.html
海量数据处理专题(三)——Hash:http://hi.baidu.com/08%B5%BD%B1%B1%BE%A9/blog/item/9daf7b25091fcc6e34a80feb.html
海量数据处理专题(四)——Bit-map:http://hi.baidu.com/08%B5%BD%B1%B1%BE%A9/blog/item/abd9363f6cbb34cc7d1e71f4.html

找个代理应该可以。

只学java 发表于 2011-8-18 10:04 | 显示全部楼层
文章是好东西。
但这个貌似在csdn上 cnblogs都出现过啊。
不知道是原创 还是转载,注明下比较好

broken 发表于 2011-8-18 10:04 | 显示全部楼层
整理的不错,学习了

走就走吧 发表于 2011-8-18 10:04 | 显示全部楼层
总结的挺全的 ,值得学习

yoyo 发表于 2011-8-18 10:04 | 显示全部楼层
及时啊,周一面试可能用得上。

fl 发表于 2011-8-18 10:04 | 显示全部楼层
不过内容好像不是原创的。其他地方见过

 楼主| gz-vps 发表于 2011-8-18 10:04 | 显示全部楼层
天堂友人 写道
不过内容好像不是原创的。其他地方见过

能找到原文吗?
您需要登录后才可以回帖 登录 | 成为会员

本版积分规则

QQ|手机版|小黑屋|网站帮助|职业IT人-IT人生活圈 ( 粤ICP备12053935号-1 )|网站地图
本站文章版权归原发布者及原出处所有。内容为作者个人观点,并不代表本站赞同其观点和对其真实性负责,本站只提供参考并不构成任何投资及应用建议。本站是信息平台,网站上部分文章为转载,并不用于任何商业目的,我们已经尽可能的对作者和来源进行了通告,但是能力有限或疏忽造成漏登,请及时联系我们,我们将根据著作权人的要求立即更正或者删除有关内容。

GMT+8, 2024-5-11 04:40 , Processed in 0.148541 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表