Search Engine Technology
[
2007/08/11 20:09 | by Sangern King ]
2007/08/11 20:09 | by Sangern King ]
搜索引擎的策略都是采用服务器群集和分布式计算技术。
网页搜索引擎
网页搜索引擎各子系统的设计和实现可能涉及的内容:
网页信息抽取、质量分析
数据挖掘、用户行为分析
分布式大规模网络服务设计
高性能计算,实时海量数据处理
相关性算法
中文处理,新词挖掘
集群开发
数百/数千台服务器在协同工作
管理和调优数据中心的各种设备
*这需要你了解服务器硬件架构和相关原理,能够对硬件和操作系统层面进行优化。
测试和提高Linux内核的使用效率
*这需要你熟悉linux内核,熟悉TCP/IP协议栈,熟悉路由交换技术。
大规模集群的系统支持
先进数据中心的集成支持
一个跨越全国的分布式系统的网络性能
先进的网络安全技术
机群运维
网页搜索各个子系统的运维操作、服务监控、故障排查,以及紧急情况下的应急处理
服务监控与自动运维系统或工具的设计与开发
研究服务架构,发现潜在问题,对网页搜索系统的研发提出改进需求,提高系统的健壮性和效率
对IDC、硬件、网络等资源进行规划和部署
制定、整理和优化内部制度和流程,制定和改进应急预案,提高服务运行的质量
对相关新技术保持敏锐感觉,调研和试验新的技术方向
基础设施
挑战系统极限--研究与优化linux操作系统;
挑战硬件性能极限--研究与定制服务器硬件系统;
挑战大规模、高性能网络极限--研究与优化网络;
挑战大规模网络环境、大服务流量情况下的网络、服务安全--研究与设计安全系统
设计最适应自身的IDC--研究IDC各子系统;
将最新研究成果,在最短的时间,应用到超大规模集群,接受亿万网民的考验!
数据分析
对海量日志信息进行各种统计分析
用户行为分析
关于:google
关于:SEO





