因爲涉及到體能訓練成績,所以接觸到了很多表格,觸發了對錶格數據的思考:
圖表也是重要的數據來源,應該如何來進行處理?
圖表的數據不僅關係它本身,而且也和表格形式相關,此外還和背景材料相關。
首先從一個比較乾淨的表格開始,它本身是可以編輯的pdf.
鑑於chatglm3不帶pdf處理、llama3目前還沒有看到環境,使用kimi來進行分析,問3個問題
這個是沒有問題的。
把男、女也分開來了,應該說沒有問題。
這個我一開始還看錯了(因爲這裏的表格有理解困難),但是kimi實際上很好地理解了這裏的問題。所以這次測試,可以打100分。
下面,就是真正的測試了。使用《國家學生體質健康標準》進行研究【首先,對比發現kimi對pdf的分析要比doc好】
下面畫圈的都是錯誤的
特別是它對於多和少的理解是錯誤的:
初步小結:
1、對於單表格來說,現在的能力已經很強的;但是無法泛化至文檔級別。
2、對於體能表格這個問題,可能也就是單個文檔級別的規模,但是我們需要解決的是知識庫規模的問題。
3、對於確定的表格數據,目前看合理的解決方法還是關係型數據庫。
一個基本的結論,就是要把llm當作人一樣來考慮。比如我們自己積累材料,肯定是按照自己的理解進行了分類、歸納,然後建立全文檢索,方便查詢;強一點的就是在哪裏裏面可以融匯貫通,找到不同類型、不同實踐材料之間的前後關係。比如對於表格,我們一般處理也就是“我知道這裏有一個表格,大概可以解決什麼什麼問題”,如果需要的時候去查詢就可以了。所以我想在表格查詢這塊,llm能夠幫我定位、把合適的數據找出來就可以。我肯定是要去核準的。