第一个Hadoop计划:Hello Hadoop!

时间:2020-02-23 14:33:40  来源:igfitidea点击:

安装并运行Hadoop集群后,我们可以运行第一个Hadoop程序。
此应用程序非常简单,并计算为一年中飞行的所有航班飞行的总线。
这一年由我们在应用程序中读取的数据文件定义。

为了让事情在这里有点更简单,我们将运行Pig脚本来计算飞行的总线。
我们将看到地图并减少输出中飞行的阶段。

以下是此Pig脚本的代码:

records = LOAD '2013_subset.csv' USING PigStorage(',') AS              
(Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,               
CRSArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,              
CRSElapsedTime,AirTime,ArrDelay,DepDelay,Origin,Dest,              
Distance:int,TaxiIn,TaxiOut,Cancelled,CancellationCode,              
Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,              LateAircraftDelay);milage_recs = 
GROUP records ALL;tot_miles = FOREACH milage_recs GENERATE SUM(records.Distance);STORE tot_miles INTO /user/root/totalmiles;

我们希望将此代码放在VM上的文件中,因此首先创建文件。
右键单击VM的桌面,然后从出现的上下文菜单中选择"创建文档",并将其命名为文档。
然后在编辑器中打开文档,在代码中粘贴并保存文件。

从命令行中,运行以下命令以运行PIG脚本:

pig totalmiles.pig

你会看到很多输出行,然后最后一个"成功!"消息,后跟更多统计信息,然后最后命令提示符。
在Pig工作完成后,我们可以看到

hdfs dfs -cat /user/root/totalmiles/part-r-00000

Drumroll,请......答案是:775009272

与此同时,我们可以运行第一个Hadoop应用程序!