2020美賽C題建模覆盤(Ⅰ)—建模思路與資料整理

文章目錄

建模

引言

2020美賽建模結束了，筆者所帶的隊伍選做了問題C（“給差評題”），建模當中有許多做的不足的地方，希望通過覆盤將當時的遺留問題解決，於是希望寫出系列文章，聊做整理。

建模內容（翻譯版）

數據財富

在亞馬遜創建的在線市場中，亞馬遜爲客戶提供了一個對購買進行評級和評估的機會。個人評級-稱爲“星級評級”-允許購買者使用1（低評級，低滿意度）到5（高評級，高滿意度）的等級來表達他們對產品的滿意度。此外，客戶還可以提交基於文本的消息（稱爲“評論”），以表達對產品的進一步意見和信息。其他客戶可以在這些評論上提交有幫助或沒有幫助的評級（稱爲“幫助性評級”），以幫助他們自己的產品購買決策。公司使用這些數據來深入瞭解他們參與的市場、參與的時機以及產品設計功能選擇的潛在成功。

陽光公司計劃在網上市場推出並銷售三種新產品：微波爐a microwave oven、嬰兒奶嘴a baby pacifier和吹風機a hair dryer。他們已聘請您的團隊作爲顧問，以確定過去客戶提供的與其他競爭產品相關的評級和評論中的關鍵模式、關係、衡量標準和參數，以告知他們的在線銷售戰略，確定潛在的重要設計功能，以增強產品的可取性。Sunshine公司過去曾使用數據來指導銷售策略，但他們以前從未使用過這種特殊的組合和類型的數據。陽光公司特別感興趣的是這些數據中基於時間的模式，以及它們是否以有助於公司打造成功產品的方式進行交互。

爲了幫助您，Sunshine的數據中心爲您提供了三個用於此項目的數據文件：hair_drewer.tsv、microwave.tsv和pacifier.tsv。這些數據代表了亞馬遜市場上銷售的微波爐、嬰兒奶嘴和吹風機在數據所示時間段內的客戶提供的評級和評價。還提供了數據標籤定義的詞彙表。提供的數據文件只包含您應該用於此問題的數據。

要求：

1、分析所提供的三個產品數據集，以識別、描述和支持數學證據、有意義的定量和/或定性模式、關係、衡量標準和星級評定、評審之間的參數，以及幫助性評級，這將有助於陽光公司在他們的三個新的在線市場產品提供成功。

2、利用你的分析來解決陽光公司市場總監提出的以下具體問題和要求

a. 一旦陽光公司的三款產品在網絡市場上銷售，根據對其信息量最大的評級和評論確定數據衡量標準。

b. 識別並討論每個數據集中基於時間的度量和模式，這些度量和模式可能表明產品在在線市場上的聲譽在增加或減少。

c. 確定基於文本的度量值和基於評級的度量值的組合，這些度量值最好地指示潛在的成功或失敗產品。

d. 特定的明星收視率會引發更多的評論嗎？例如，客戶在看到一系列低星級評級後，是否更有可能撰寫某種類型的評論？

e. 基於文本的評論的特定質量描述，如“熱情”、“失望”和其他，是否與評級水平密切相關？

3、寫一封一到兩頁的信給陽光公司的市場總監，總結你的團隊的分析和結果。包括你的團隊最自信地向市場總監推薦的結果的具體理由。

你的意見應包括：

一頁摘要表

一到兩頁的信件

你的解決方案不超過20頁，最多24頁的摘要表、目錄和兩頁的信件。

注意：參考列表和任何附錄不計入頁面限制，應在完成解決方案後顯示。您不應使用未經授權的圖片和材料，其使用受到版權法的限制。確保你引用了你的觀點的來源和你報告中使用的材料。

術語：

幫助度評分：在決定是否購買某一產品時，對某一特定產品的評價有多大價值的指標。

奶嘴Pacifier:：一種橡膠或塑料的撫慰裝置，通常是乳頭狀的，給嬰兒吮吸或咬。

評論：對產品的書面評價。

星級評定：在一個允許人們對一個產品進行星級評定的系統中給出的分數。

附件：問題數據集（數據內容與後續的參考資料、代碼等讀者可移步到筆者的資源中進行下載）

建模思路

拎出數據字段觀察分析

字段名	腦風解析
marketplace	市場所在地（皆爲US）
customer_id	顧客_ID
review_id	評論_ID(該數據集主鍵)
product_id	產品_ID
product_title	產品名稱
product_parent	生產商
product_category	產品類別（三種）
star_rating	評論給星
helpful_votes	評論有效投票（反映評論的影響力）
total_votes	評論總投票
vine	是否加入vine計劃（類似一種打折促銷，筆者認爲加入vine的評論影響力要更大）
verified_purchase	是否有效（原價）購買
review_headline	評論的文字標題
review_body	評論的文字內容
review_date	評論日期

數據預處理

1、數據集的處理

首先需要利用SQL或python等工具對數據做一個簡單處理，將消費者與商品作爲主體單拎出來作爲主體。便於後期的數據分析，與可能需要進行用戶或商品的分類。思想如下E-R結構圖所示。同時刪除無效的亂碼、錯位的文件。

2、文本數據處理

對於評論的文字內容，粗略看後，筆者表示很無奈，真是林子大了啥鳥都有，有的評論用表情（可能是造成亂碼的原因）；有的用特殊的符號與數值（怕不是懂密碼學）。總而言之相當真實的評論數據，如果想要將這些文本數據用於數值可視化，不做處理是不行的。
這裏筆者的思路爲：；利用python的第三方自然語言處理庫NLTK對文本進行處理，主要處理的內容爲：
對評論進行分句、分詞、將單詞原形化、去除停用詞。使得最後的評論只剩些簡單有價值的評論詞彙。

建模

文本挖掘

首先筆者是對評論文字做一個情感數值的打分使得評論情感數值化，這也是前期處理文本的原因。
如何進行情感賦分？筆者參考資料得到的主要方法：
1、建立一個情感詞典，對評論中情感詞進行匹配，在利用自行定義情感賦分公式算出該條評論的情感得分。
2、利用BP神經網絡對評論進行情感分類進而完成打分。

函數擬合

對於怎樣擬合出評價打星與評論情感得分與信譽度等幾個變量的關係筆者覺得：
1、使用最簡單的最小二乘擬合；
2、利用神經網絡算法進行擬合；
最後根據擬合的結果爲SUN做出一個合理的營銷策略與給出一些合理的建議。

2020美賽C題建模覆盤(Ⅰ)—建模思路與資料整理

文章目錄

引言

建模內容（翻譯版）

建模思路

拎出數據字段觀察分析

數據預處理

1、數據集的處理

2、文本數據處理

建模

文本挖掘

相關性分析

函數擬合

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

Java ThreadPoolShutdown

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

“她”來了，陪伴賽道鉅變！爲GPT-4o加上你的一個數字分身

京東秒送售後系統退款業務重構心得| 京東零售技術團隊

統計筆記—淺述樸素貝葉斯

面向考試數據庫—單表查詢（包含建表數據）

算盤課設—SEIR數學建模

《MySQL必知必會》中的建表源碼

統計學習筆記—手撕“感知機”

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結