ㄧ、欄位概觀
資料中, 欄位不多, 只有八欄, 基本上就是購物網站上會看到的那些資訊, 如產品名稱、分類、品牌、產 品新舊、價格、是否含運費及商品敘述。 產品新舊的部分是從1-5分等級的; 而產品分類欄位內包括了三個分類由斜線分開; 是否含運費的部分由1代表價格含運費, 0代表運費自付。 絕大部分的欄位都是文字, 包括了產品名稱、分類、品牌及商品敘述。資料中, training set跟testing set都只有分類及品牌有null值
Column |
id |
name |
Item_condition_id |
Category_name |
brand_name |
price |
shipping |
Item_description |
Type |
string |
string |
int64 |
string |
string |
numeric |
binary |
string |
二、價錢與敘述長度Scatter plot
這裡可以看到, 其實商品新舊1-3的商品價格分布差異並不大, 只有新舊為4-5的商品明顯價格較低; 而關於商品敘述的長度的話, 基本上長度超過500之後的商品就不太出現高價品了。
三、General category 價錢分布
以美妝、電子產品及古著還有女裝最多高價商品, 但是主要分類的商品平均價格相差不多, 而橘色為含運的商品, 藍色為不含運費的商品, 基本上並沒有除了上述的四種分類, 其他的品項有含運的商品價格偏高。
( 0 : Beauty
1 : Eletronics 2 : Handmade 3 : Home
4 : Kids
5 : Men
6 : No category
7 : Others
8 : Sports & outdoors
9 : Vintage & Collectibles 10 : Women )
四、Category cluster 結果
其中個數比較少的群其實群內的分類都十分相似, 如第12群['Outdoors', 'Artwork', 'Posters & Prints', 'Painting', 'Paintings', 'Drawings', 'Magazines', 'Patterns', 'Sculptures', 'Magnets', 'Bookmark', 'Photographs', 'Postcard', 'Illustration', 'Frames', 'Collages', 'Portraits'] 及第19群 ['NFL', 'MLB', 'NCAA', 'NBA', 'Bowl', 'NHL', 'Pitcher', 'Draft Stoppers']
五、Correlation plot
這裡可以看到, General category與價格關係的正相關最大, 而商品名稱及敘述長度為負相關, 而有含運費的商品事實上價格並沒有比較高。