背景

通常我们处理文件都是用python+pandas,确实很香。但是今天突然有人找我用go写一个合并两个csv文件的,需要将两个csv按id进行合并,大致如下图

思路很简单,先读入两个csv文件,然后遍历比较id,如果相同就把另一个文件的内容加到第一个中。然后创建merge.csv,将上一步得到的数据写入csv即可。

代码部分

package main

import (
 "encoding/csv"
 "log"
 "os"

 "fmt"
)

func join(filename1 string, filename2 string) (row [][]string) {
 fs1, _ := os.open(filename1)
 r1 := csv.newreader(fs1)
 content1, err := r1.readall()
 if err != nil {
  log.fatalf("can not readall, err is %+v", err)
 }

 fs2, _ := os.open(filename2)
 r2 := csv.newreader(fs2)
 content2, err := r2.readall()
 if err != nil {
  log.fatalf("can not readall, err is %+v", err)
 }
 row = make([][]string, len(content1[1:]))

 for i, row1 := range content1[1:] {
  for _, row2 := range content2[1:] {
   if row1[0] == row2[0] {
    row[i] = append(row[i], row1[0], row1[1], row1[2], row2[1], row2[2])
   }
  }
 }
 return
}

func edit(filename string, row [][]string) {
 f, err := os.create(filename)
 if err != nil {
  panic(err)
 }
 defer f.close()

 //防止乱码
 f.writestring("\xef\xbb\xbf")
 w := csv.newwriter(f)
 w.write([]string{"id", "name", "gender", "course", "score"})
 w.writeall(row)
 w.flush()
}

func main() {
 row := join("1.csv", "2.csv")
 fmt.println(row)
 edit("join.csv", row)
 fmt.println("合并已完成!")
}

优化

对于小数据量这样是没有问题,但是一旦数据量增大,不仅读取的内存占用增加,而且遍历比较会很消耗时间。所以优化的话我们可以以行读取,并且想办法使用go的goroutine来增加速度。唉,太久没怎么写go了,一开始切片都有点忘了。

到此这篇关于go来合并两个csv的实现示例的文章就介绍到这了,更多相关go合并csv内容请搜索www.887551.com以前的文章或继续浏览下面的相关文章希望大家以后多多支持www.887551.com!