淘宝2012校招技术笔试题
技术 笔试 2012 淘宝 校招
2023-09-11 14:17:58 时间
实现五:统计一个单词可重复的英文文件(假设4G)中每个单词出现的次数,把结果按照英文排序放入一个文件中。并能够检索特定单词的出现次数。由于文件过大,不重复单词总数有限,需要考虑到执行速度和内存使用情况。(淘宝笔试技术题)
- import java.io.File;
- import java.io.FileNotFoundException;
- import java.io.FileOutputStream;
- import java.io.IOException;
- import java.io.RandomAccessFile;
- import java.nio.ByteBuffer;
- import java.nio.MappedByteBuffer;
- import java.nio.channels.FileChannel;
- import java.nio.channels.FileLock;
- import java.nio.charset.Charset;
- import java.util.HashMap;
- import java.util.Map;
- import java.util.StringTokenizer;
- import java.util.TreeMap;
- public class TestCountWords {
- public static void main(String[] args) {
- File wf = new File("words.txt");
- final CountWords cw1 = new CountWords(wf, 0, wf.length()/2);
- final CountWords cw2 = new CountWords(wf, wf.length()/2, wf.length());
- final Thread t1 = new Thread(cw1);
- final Thread t2 = new Thread(cw2);
- //开辟两个线程分别处理文件的不同片段
- t1.start();
- t2.start();
- Thread t = new Thread() {
- public void run() {
- while(true) {
- //两个线程均运行结束
- if(Thread.State.TERMINATED==t1.getState() && Thread.State.TERMINATED==t2.getState()) {
- //获取各自处理的结果
- HashMap<String, Integer> hMap1 = cw1.getResult();
- HashMap<String, Integer> hMap2 = cw2.getResult();
- //使用TreeMap保证结果有序
- TreeMap<String, Integer> tMap = new TreeMap<String, Integer>();
- //对不同线程处理的结果进行整合
- tMap.putAll(hMap1);
- tMap.putAll(hMap2);
- //打印输出,查看结果
- for(Map.Entry<String,Integer> entry : tMap.entrySet()) {
- String key = entry.getKey();
- int value = entry.getValue();
- System.out.println(key+":\t"+value);
- }
- //将结果保存到文件中
- mapToFile(tMap, new File("result.txt"));
- }
- return;
- }
- }
- };
- t.start();
- }
- //将结果按照 "单词:次数" 格式存在文件中
- private static void mapToFile(Map<String, Integer> src, File dst) {
- try {
- //对将要写入的文件建立通道
- FileChannel fcout = new FileOutputStream(dst).getChannel();
- //使用entrySet对结果集进行遍历
- for(Map.Entry<String,Integer> entry : src.entrySet()) {
- String key = entry.getKey();
- int value = entry.getValue();
- //将结果按照指定格式放到缓冲区中
- ByteBuffer bBuf = ByteBuffer.wrap((key+":\t"+value).getBytes());
- fcout.write(bBuf);
- bBuf.clear();
- }
- } catch (FileNotFoundException e) {
- e.printStackTrace();
- } catch (IOException e) {
- e.printStackTrace();
- }
- }
- }
- class CountWords implements Runnable {
- private FileChannel fc;
- private FileLock fl;
- private MappedByteBuffer mbBuf;
- private HashMap<String, Integer> hm;
- public CountWords(File src, long start, long end) {
- try {
- //得到当前文件的通道
- fc = new RandomAccessFile(src, "rw").getChannel();
- //锁定当前文件的部分
- fl = fc.lock(start, end, false);
- //对当前文件片段建立内存映射,如果文件过大需要切割成多个片段
- mbBuf = fc.map(FileChannel.MapMode.READ_ONLY, start, end);
- //创建HashMap实例存放处理结果
- hm = new HashMap<String,Integer>();
- } catch (FileNotFoundException e) {
- e.printStackTrace();
- } catch (IOException e) {
- e.printStackTrace();
- }
- }
- @Override
- public void run() {
- String str = Charset.forName("UTF-8").decode(mbBuf).toString();
- //使用StringTokenizer分析单词
- StringTokenizer token = new StringTokenizer(str);
- String word;
- while(token.hasMoreTokens()) {
- //将处理结果放到一个HashMap中,考虑到存储速度
- word = token.nextToken();
- if(null != hm.get(word)) {
- hm.put(word, hm.get(word)+1);
- } else {
- hm.put(word, 1);
- }
- }
- try {
- //释放文件锁
- fl.release();
- } catch (IOException e) {
- e.printStackTrace();
- }
- return;
- }
- //获取当前线程的执行结果
- public HashMap<String, Integer> getResult() {
- return hm;
- }
- }
以上代码是我自己实现的,主要思想是:
1.使用具有键值对结构的HashMap来快速存取;
2.由于文件过大,用一个线程处理可能结果较慢,使用到并发机制;
3.IO操作比较耗时,所以使用了nio的相关内容;
4.最终结果要有序的话,可以使用TreeMap。
望同行给予批评指导,相信有更好的解决办法和思路,如果能帮着优化以上代码,请给予留言,或者发邮件至bluesky_taotao@163.com,真诚欢迎各位编程爱好者与我讨论相关技术问题。
相关文章
- 基于GPON的光纤光栅通信网与传感网融合技术研究
- 云原生 etcd 系列-4|快照技术是什么?
- 技术精选:Grafana+Prometheus环境搭建
- 灾备故障上了红头文件,容灾技术到底哪家强?
- 《编译与反编译技术实战 》一1.4 编译器GCC
- 《数据库技术原理与应用教程第2版》——
- [软件笔试] 2014暴风影音校招技术笔试题(长春站)
- HMS Core Insights第二期直播预告——华为定位技术让你重拾方向感
- 「SAP技术」为正常库存管理的物料做成本中心采购会是什么结果?
- 《软件测试技术实战:设计、工具及管理》—第1章 1.3节验证与确认的区别
- 通信是会话语义格式化的信息交互,是面向会话控制、信息表达、信道维护的技术
- 《Docker技术入门与实战》——2.4 本章小结
- 人工智能时代:云计算将掀起新的技术浪潮
- SSL 的技术原理是什么?
- 无线局域网技术