文档库 最新最全的文档下载
当前位置:文档库 › Homework1(上交时间10月14号)

Homework1(上交时间10月14号)

Homework1(上交时间10月14号)
Homework1(上交时间10月14号)

Homework 1(上交时间:10月14号)倒排索引

实现目标

通过Hadoop提供的API接口,对所给文件建立一个倒排索引,使能够根据单词对文件进行检索

实现要求

文件内容为英文,存储在本地文件中。

建立倒排索引的程序运行完时,Reduce过程的输出形式为。

<单词,<文件>:词频,…..>

<“mapreduce”, 0.txt:1, 2.txt:2>

Map 过程

●首先使用默认的TextInputFormat类对输入文件进行处理,得到文本中的偏移量及其类容。

●Map过程对输入的进行分析,得到需要的信息,单词,文件名,词频。由于对只能有两个只,则需根据情况将其中的两个合并,例如将单词与文件名合并。

Combine 过程

●经过map方法后,Combine将key相同的value相加,得到一个单词在文件中的词频。

●由于具有相同单词的记录应该被同一个reduce处理,所以这里应该修改key为单词,value为词频与文件的组合

Reduce 过程

经过上述两个过程后,reduce过程只需将相同key值的value组合成所需的输出格式即可。

相关文档