Homework 1(上交时间:10月14号)倒排索引
实现目标
通过Hadoop提供的API接口,对所给文件建立一个倒排索引,使能够根据单词对文件进行检索
实现要求
文件内容为英文,存储在本地文件中。
建立倒排索引的程序运行完时,Reduce过程的输出形式为。
<单词,<文件>:词频,…..>
<“mapreduce”, 0.txt:1, 2.txt:2>
Map 过程
●首先使用默认的TextInputFormat类对输入文件进行处理,得到文本中的偏移量及其类容。
●Map过程对输入的
Combine 过程
●经过map方法后,Combine将key相同的value相加,得到一个单词在文件中的词频。
●由于具有相同单词的记录应该被同一个reduce处理,所以这里应该修改key为单词,value为词频与文件的组合
Reduce 过程
经过上述两个过程后,reduce过程只需将相同key值的value组合成所需的输出格式即可。